CN111273230B

CN111273230B - 一种声源定位方法

Info

Publication number: CN111273230B
Application number: CN202010136560.5A
Authority: CN
Inventors: 毛鑫; 张益萍; 黄明飞; 姚宏贵
Original assignee: Open Intelligent Machine Shanghai Co ltd
Current assignee: Open Intelligent Machine Shanghai Co ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2022-06-07
Anticipated expiration: 2040-03-02
Also published as: CN111273230A

Abstract

本发明公开了一种声源定位方法，属于声源定位技术领域，包括：步骤S1，接收原始声源信号，并处理得频率值；步骤S2，采用陷波设计公式处理得到每个预设方向上的波束系数；步骤S3，对原始声源信号进行扫描，随后根据波束系数，对扫描结果进行处理；步骤S4，处理得到多个预设方向上的陷波降噪量；步骤S5，将陷波降噪量中的最大值所对应的预设方向确定为原始声源信号中的期望声源的声源方向；有益效果是：不仅定位精度优于基于最大输出功率的延迟累加波束形成算法的定位精度，而且算法整体运算量较小，适合实时在线声源定位。

Description

一种声源定位方法

技术领域

本发明涉及声源定位技术领域，尤其涉及一种声源定位方法。

背景技术

声源定位技术可以分为两大类，即声阵列(也叫传声器阵列或麦克风阵列)声源定位和声强探头声场测试。声源定位技术可用于噪声源定位、异音异响测试、语音增强、机器人声音定位、飞机噪声测试和电力设备监测等领域中。

在即声阵列声源定位中，通过采集目标物发出的声音信号，并对该声音信号进行特定的算法运算，从而确定该目标物相对于声音采集装置的位置。声源定位的准确性决定了后续波束形成、盲源分离等语音增强算法性能。

常用的基于最大输出功率的可控波束形成方法，将麦克风阵列所收到的声音信号进行滤波并求和从而形成波束，然后通过搜索声源可能的位置来改变该波束，最后通过修改权值使麦克风阵列的信号输出功率达到最大，该最大值所对应的方向就是声源位置方向。基于最大输出功率的可控波束形成定位算法主要分为延迟累加波束形成算法和自适应波束形成算法。延迟累加波束形成算法的权值的选取与麦克风接收到的信号的相位差有关，该算法的运算量较小、信号失真小但抗噪性能差。自适应波束形成算法因为加入了自适应滤波且需要进行全局搜索，因而运算量较大，虽然采用一些迭代方法能够减少运算量，但是由于没有有效的全局峰值而收敛于几个局部极大值，且对初始搜索值敏感。基于最大输出功率的可控波束形成算法从本质上看是最大似然估计算法，因而需要获得背景噪声以及目标声源信号的先验知识，然而在实际的应用环境下，目标声源以及噪声的先验知识难以获取，这就需要解决非线性优化问题，从而目标函数会出现多个局部极点的问题，即得到的解都是局部最优，所以在实际应用中基于最大输出功率的可控波束形成定位算法受到了相应的限制，不能有效满足实时在线声源的定位。

发明内容

根据现有技术中存在的上述问题，现提供一种声源定位方法，该方法提出一种空间陷波区域可调的陷波设计方法，并通过陷波降噪量大小来判定声源的方向，对声源进行定位，不仅定位精度优于基于最大输出功率的延迟累加波束形成算法的定位精度，而且算法整体运算量较小，适合实时在线声源定位。

上述技术方案具体包括：

一种声源定位方法，其中包括：

步骤S1，通过线性麦克风阵列接收声源产生的原始声源信号，并处理得到所述原始声源信号的频率值；

步骤S2，根据预先设置的多个接收方向、所述线性麦克风阵列的阵列属性以及所述频率值，采用陷波设计公式处理得到每个所述预设方向上的波束系数；

步骤S3，按照多个所述预设方向，对所述线性麦克风阵列采集到的所述原始声源信号进行扫描，随后根据所述波束系数，对扫描结果进行处理得到多个所述预设方向上的陷波波束；

步骤S4，根据所述陷波波束和所述原始声源信号处理得到多个所述预设方向上的陷波降噪量；

步骤S5，将所述陷波降噪量中的最大值所对应的预设方向确定为所述原始声源信号中的期望声源的声源方向。

优选地，其中，所述陷波设计公式为：

其中，

ω＝2πf，f用于表示期望声源的所述频率值；

d(ω,θ)用于表示根据ω和θ形成的导向向量；

ε为常数，表示由陷波波束形成的白噪声增益的调节量；

I_M用于表示维度数为M的单位矩阵，其中M用于表示所述线性麦克风阵列中的麦克风数目；

θ用于表示所述预设方向的方向角；

Γ_α,β(ω)用于表示角度范围为α到β范围内均匀声场噪声协方差矩阵；

h_i(ω，θ)用于表示第i个方向上的所述波束系数。

优选地，其中，所述陷波设计公式中，所述导向向量d(ω,θ)满足如下公式：

其中，

t₀＝d/c，d用于表示所述线性麦克风阵列中各麦克风之间的间距，c用于表示声速；

ω＝2πf，f用于表示期望声音的所述频率值；

M用于表示所述线性麦克风阵列中的麦克风数目；

θ用于表示所述预设方向的方向角。

优选地，其中，所述Γ_α,β(ω)具体满足如下公式：

其中，

δ用于表示变量。

优选地，其中，所述步骤S2中，所述陷波波束输出根据如下公式计算得到：

其中，

Z_i(ω)用于表示第i个方向上的陷波波束输出；

h_i(ω，θ)用于表示第i个方向上的所述波束系数；

y(ω，θ)用于表示所述线性麦克风阵列的观测信号。

优选地，其中，所述观测信号满足如下公式：

y(ω,θ)＝[Y₁(ω)×Y₂(ω)×...×Y_M(ω)]^T

其中，

M用于表示所述线性麦克风阵列中的麦克风数目；

Y_M(ω)用于表示第M个麦克风接收的频域信号；

上标T用于表示转置操作。

优选地，其中，所述步骤S3中，所述陷波降噪量根据如下公式获得：

其中，

NR_i用于表示第i个方向上的陷波降噪量；

Y₁(ω)用于表示所述线性麦克风阵列采集的所述声源信号；

Z_i(ω)用于表示第i个方向上的陷波波束输出；

pow(Y₁(ω))用于表示所述声源信号的输出能量；

pow(Z_i(ω))用于表示所述陷波波束输出的输出能量。

优选地，其中，所述声源信号的输出能量满足如下公式：

其中，

NFFT用于表示傅里叶变换频点数。

优选地，其中，所述陷波波束输出的输出能量满足如下公式：

其中，

NFFT用于表示傅里叶变换频点数。

优选地，其中，所述ε取值为0.01。

上述技术方案的有益效果在于：

提供一种声源定位方法，该方法提出一种空间陷波区域可调的陷波设计方法，并通过陷波降噪量大小来判定声源的方向，对声源进行定位，不仅定位精度优于基于最大输出功率的延迟累加波束形成算法的定位精度，而且算法整体运算量较小，适合实时在线声源定位。

附图说明

图1是本发明的较佳实施例中，一种声源定位方法的步骤流程图；

图2是本发明的较佳实施例中，声源定位实验布置图；

图3-图5是本发明的较佳实施例中，陷波波束图；

图6是本发明的较佳实施例中，厨房噪声和唤醒词场景下，各角度陷波降噪量示意图；

图7是本发明的较佳实施例中，于图6的基础上，各角度陷波降噪量放大示意图；

图8是本发明的较佳实施例中，厨房噪声和唤醒词场景下声源定位结果示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

一种声源定位方法，如图1所示，其中包括：

步骤S1，通过线性麦克风阵列接收声源产生的原始声源信号，并处理得到原始声源信号的频率值；

步骤S2，根据预先设置的多个接收方向、线性麦克风阵列的阵列属性以及频率值，采用陷波设计公式处理得到每个预设方向上的波束系数；

步骤S3，按照多个预设方向，对线性麦克风阵列采集到的原始声源信号进行扫描，随后根据波束系数，对扫描结果进行处理得到多个预设方向上的陷波波束；

步骤S4，根据陷波波束和原始声源信号处理得到多个预设方向上的陷波降噪量；

步骤S5，将陷波降噪量中的最大值所对应的预设方向确定为原始声源信号中的期望声源的声源方向。

在本发明的较佳实施例中，陷波设计公式为：

其中，

ω＝2πf，f用于表示期望声源的频率值；

d(ω,θ)用于表示根据ω和θ形成的导向向量；

ε为常数，表示由陷波波束形成的白噪声增益的调节量；

I_M用于表示维度数为M的单位矩阵，其中M用于表示线性麦克风阵列中的麦克风数目；

θ用于表示预设方向的方向角；

h_i(ω，θ)用于表示第i个方向上的波束系数。

具体的，在本实施例中，上述陷波设计公式中，可以保证主方向θ上的响应不失真，并抑制α到β范围内的方向性声场。

在本发明的较佳实施例中，陷波设计公式中，导向向量d(ω,θ)满足如下公式：

其中，

t₀＝d/c，d用于表示线性麦克风阵列中各麦克风之间的间距，c用于表示声速；

ω＝2πf，f用于表示期望声音的频率值；

M用于表示线性麦克风阵列中的麦克风数目；

θ用于表示预设方向的方向角；

上标T用于表示转置操作。

在本发明的较佳实施例中，Γ_α,β(ω)具体满足如下公式：

其中，

δ用于表示变量。

在本发明的较佳实施例中，步骤S2中，陷波波束输出根据如下公式计算得到：

其中，

Z_i(ω)用于表示第i个方向上的陷波波束输出；

h_i(ω，θ)用于表示第i个方向上的波束系数；

上标H用于表示共轭转置操作；

y(ω，θ)用于表示线性麦克风阵列的观测信号。

在本发明的较佳实施例中，观测信号满足如下公式：

y(ω,θ)＝[Y₁(ω)×Y₂(ω)×...×Y_M(ω)]^T

其中，

M用于表示线性麦克风阵列中的麦克风数目；

Y_M(ω)用于表示第M个麦克风接收的频域信号；

上标T用于表示转置操作。

具体的，在本实施例中，在该模型下，麦克风阵列的观测信号为：

y(ω,θ)＝[Y₁(ω) Y₂(ω) ... Y_M(ω)]^T＝x(ω)+v(ω)＝d(ω)X(ω)+v(ω)

其中，x(ω)＝d(ω)X(ω)，X(ω)为期望信号，v(ω)为噪声信号矢量。

波束形成通过线性滤波器得到波束形成输出：

Z(ω)＝h^H(ω)y(ω)＝h^H(ω)d(ω)X(ω)+h^H(ω)v(ω)

其中，Z(ω)为对期望信号X(ω)的估计，上标H为共轭转置操作。主方向θ无失真限制如下：

h^H(ω)d(ω，θ)＝1

阻带波束设计约束如下：

min_h(ω)h^H(ω)[εI_M+Γ_α,β(ω)]h(ω)＝1

其中将主方向θ无失真限制作为求解的限制条件加入阻带波束设计约束公式中，求解得到上述陷波设计公式。

在本发明的较佳实施例中，步骤S3中，陷波降噪量根据如下公式获得：

其中，

NR_i用于表示第i个方向上的陷波降噪量；

Y₁(ω)用于表示线性麦克风阵列采集的声源信号；

Z_i(ω)用于表示第i个方向上的陷波波束输出；

pow(Y₁(ω))用于表示声源信号的输出能量；

pow(Z_i(ω))用于表示陷波波束输出的输出能量。

在本发明的较佳实施例中，声源信号的输出能量满足如下公式：

其中，

NFFT用于表示傅里叶变换频点数。

在本发明的较佳实施例中，陷波波束输出的输出能量满足如下公式：

其中，

NFFT用于表示傅里叶变换频点数。

在本发明的较佳实施例中，ε取值为0.01。

下面以一个具体实施例来对上述技术方案进行具体说明：

如图2所示，本实施例中，采用双麦克风阵列来进行语音唤醒的声源定位，并以双麦风阵列所在的直线为x轴，以垂直x轴且经过双麦克风中间连线中点的直线y轴建立坐标系，随后，于50°方向上持续播放厨房噪音，于90度方向上间断播放唤醒词，根据本发明所公开的声源定位方法，首先，根据陷波设计公式进行陷波波束设计，在空间的预定方向上生成陷波波束，具体的，主方向θ为180°，α到β范围分别为：0°至20°、20°至40°、40°至60°、60°至80°、80°至100°；主方向θ为0°，α到β范围分别为：100°至120°、120°至140°、140°至160°、160°至180°；共生成九种波束系数h_i(i＝1,2...9)。分别用于判定空间中，10°、30°、50°、70°、90°、110°、130°、150°、170°九个方向。由于主方向θ无失真限制方向，α到β范围所包括的方向是声源信号抑制方向，因此，在预定方向的设计过程中，主方向θ与α到β范围之间应当尽量相隔远一点，以避免互相干扰。如图3-5所示，分别为主方向θ为180°，α到β范围分别为：0°到20°、80°到100°，主方向θ为0°，α到β范围分别为：160°到180°，共三个陷波波束的波束图。

第二步，对陷波波束空间扫描，根据步骤1中设计得到的九个空间方向上的九个波束系数，扫描得到9个方向上的陷波波束输出：

第三步计算每个方向上的陷波降噪量，统计原始输入信号Y₁(ω)能量，与各方向陷波波束输出Z_i(ω)能量，求出各方向陷波降噪量：

如图6-图7所示，在50°方向播放平稳的厨房噪声时，50°方向陷波降噪量最大。在厨房噪声基础上，在90°方向播放说话人唤醒词，90°方向陷波降噪量最大，如图8所示，根据此特性，可以得到空间中不同声源的空间位置。

上述技术方案的有益效果在于：

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。