CN109212480B

CN109212480B - 一种基于分布式辅助粒子滤波的声源跟踪方法

Info

Publication number: CN109212480B
Application number: CN201811031156.0A
Authority: CN
Inventors: 张巧灵; 唐柔冰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2020-07-28
Anticipated expiration: 2038-09-05
Also published as: CN109212480A

Abstract

本发明公开一种基于分布式辅助粒子滤波的声源跟踪方法，包括：首先，在每一个节点l计算广义互相关函数

构造该节点的局部观测

计算k‑1时刻的每一个粒子

的辅助变量

利用平均一致性算法计算

对应的权重

并进行归一化；根据归一化的权重

对k‑1时刻的粒子重采样得到

通过声源动态模型以及k‑1时刻的粒子

预测k时刻的粒子

其次，对预测得到每一个粒子

利用局部观测

计算器局部权重，然后利用平均一致性算法计算其全局权重

并进行归一化；最后，根据粒子和权重计算出当前k时刻的声源位置。本发明能够在室内噪声和混响环境下对移动声源进行有效跟踪，仅要求节点间的局部通信，具有良好的可扩展性和对通信链路故障的鲁棒性。

Description

一种基于分布式辅助粒子滤波的声源跟踪方法

技术领域

本发明涉及室内声源跟踪的技术领域，具体涉及一种基于分布式辅助粒子滤波的声源跟踪方法。

背景技术

基于麦克风阵列的声源定位和跟踪是音频信号处理领域一个基本而重要的研究课题。它是众多音频处理问题的基础，如语音增强、去噪、语音识别、语音分离等，在许多应用场合发挥着极其重要的作用，如智能语音识别、音视频会议系统、智能音箱、车载免提电话系统、移动机器人、助听设备和监控系统等。智能语音识别系统，尤其是远场语音识别，对音频输入信号的质量非常敏感。通常，可在语音识别系统前端采用声源定位和跟踪技术预先得到说话人的位置或方向信息，然后使麦克风阵列波束指向该说话人，放大该方向音频信号的同时衰减其它方向捕捉的信号，提高拾取音频信号的质量，进而提高后端的语音识别性能。

基于麦克风网络的声源定位和跟踪，主要利用空间中多个不同位置的麦克风对同一声源信号的感知差异来估计该声源的空间位置信息。麦克风网络是一种新型的麦克风阵列，传统的麦克风阵列通常具有固定且规则的阵列结构；此外，受智能设备尺寸限制，阵列可容纳的麦克风数目不多，空间覆盖范围有限，导致其在许多应用场合(如远场语音交互)的抗噪声和抗混响性能不够理想。相比之下麦克风网络的节点部署灵活，空间覆盖范围更大，具有更好的抗噪声和抗混响能力；每个节点都有独立的数据处理能力，且对通信链路故障具有一定的鲁棒性。基于以上特点，麦克风网络已经出现迅速成为国内外学者的研究热点。

目前，关于麦克风网络的声源定位和跟踪方法大体分为以下几类：一是传统的声源定位方法，即先将麦克风接收的音频信号转化为某个定位函数，然后通过定位函数的最大波峰进行声源定位。这类方法在噪声或混响不严重的情况下取得了良好效果；然而，当噪声或混响较大时，定位函数往往呈现多个伪峰(Spurious Peaks)，这些伪峰甚至会将真正声源对应的波峰“淹没”，导致错误的位置估计；此外，当声源移动时，用于定位算法的观测数据十分有限，导致定位性能下降；二基于神经网络的声源定位方法，即通过数据训练利用神经网络构建特征观测和声源位置(或方向)的映射关系，进而实现声源定位。早期Nakano等采用人工神经网络(ANN)对声源的方向和位置进行估计，近年来，Takeda和Komatani等采用深度学习网络(DNN)进行声源定位。这类方法依赖于定位函数提取的特征观测作为神经网路的输入，当噪声或混响较大，或者声源移动时，由定位函数提取的特征观测往往并不可靠，导致神经网络的定位性能下降；三是集中式声源跟踪方法，对于移动声源，跟踪方法主要根据声源的运动特性采用递推算法估计其位置信息，在噪声和混响环境下往往比定位方法性能更好。这类方法需要将所有的节点的观测信息传送到融合中心，但融合中心的功耗在麦克风巨大网络下会急剧增加，并且对融合中心的依赖性太强，一旦融合中心发生故障，网络将瘫痪；四是分布式声源跟踪方法，相比集中式的跟踪方法，这类方法往往不需要融合中心，只需要阵列中邻域节点之间的局部通信，其对节点或链路失败具有很好的鲁棒性，且具有良好的可扩展性，因而非常适合于灵活智能的阵列或网络。田野等基于扩展卡尔曼滤波算法，结合室内声源跟踪问题的特点，提出了一种基于分布式扩展卡尔曼滤波的声源跟踪方法。Zhong等人结合扩展卡尔曼滤波以及粒子滤波算法，提出了一种基于分布式扩展卡尔曼粒子滤波的声源跟踪算法。本人曾根据室内声源跟踪问题的特点，结合边缘粒子滤波(MPF)以及辅助粒子滤波(APF)算法，提出了一种基于分布式边缘辅助粒子滤波的声源跟踪算法。

总体而言，基于麦克风网络的分布式声源跟踪方法是室内声源跟踪问题的研究热点，该研究对于解决当前许多音频应用，如智能语音交互(尤其是远场语音交互)的技术落地具有十分重要的意义。然而，目前基于麦克风网络的分布式声源跟踪方法的研究尚不成熟，现有成果或多或少存在一定不足。

发明内容

针对上述现有技术的不足，本发明提出一种基于分布式辅助粒子滤波的声源跟踪方法，该方法适用于一般的非线性、非高斯跟踪问题，仅仅需要相邻节点之间的局部通信，且具有良好的鲁棒性和可扩展性。

在本发明中，本发明提供了一种基于分布式辅助粒子滤波的声源跟踪方法，该方法主要包括以下步骤：

S1，在每一个节点l计算广义互相关函数

利用

的多个局部极值点构造局部观测

l＝1,2,…,L,L为麦克风节点的数目，k＝1,2,…,K,，K为对声源进行位置估计的帧数；

S2，计算k-1时刻的每一个粒子

的辅助变量

及其权重

j＝1,2,…,N；

S3，根据权重

对k-1的粒子

重采样得到

S4，根据声源动态模型以及k-1时刻的粒子

预测k时刻的粒子

S5，计算每一个粒子

的权重

S6，根据粒子

及其权重

计算声源位置

优选地，步骤S2具体包括以下步骤：

S21，通过公式

计算辅助变量

S22，通过多假设模型

计算局部似然概率

其中，

S23，利用平均一致性迭代公式由局部似然概率

计算全局似然概率

S24，通过公式

计算辅助变量

的权重

S25，归一化权重

优选地，步骤S5具体包括以下步骤：

S51，通过多假设模型

计算局部似然概率

S52，利用平均一致性迭代公式由局部似然概率

计算全局似然概率

S53，通过公式

计算权重

S54，归一化权重

其中i＝1,2,…,N。

优选地，步骤S1中每一个节点l依据广义互相关函数

的前N_n个最大值对应的时延作为该节点的局部观测

即

相对于现有技术，本发明具有以下优点：

本发明结合辅助粒子滤波算法和室内声源跟踪问题的特点，提出一种基于分布式辅助粒子滤波的声源跟踪框架，该方法适用于一般的非线性、非高斯跟踪问题，仅仅需要相邻节点之间的局部通信，且具有良好的鲁棒性和可扩展性。

附图说明

图1为本发明的具体实施步骤。

图2为本发明实施例的分布式麦克风网络的通信图。

图3为本发明实施例的麦克风分布和扬声器的运动轨迹图。

具体实施方式

下面结合具体实施例和附图对本发明作详细说明。虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

如图1所示，本发明的利用分布式辅助粒子滤波算法进行声源跟踪的方法包括以下步骤：首先，在每一个节点l计算广义互相关函数

并且构造该节点的局部观测

计算出k-1时刻的每一个粒子

的辅助变量

利用平均一致性算法计算

对应的权重

并进行归一化；根据归一化的权重

对k-1时刻的粒子重采样得到

通过声源的动态模型以及k-1时刻的粒子

预测得出k时刻的粒子

其次，对预测得到每一个粒子

先利用局部观测

计算器局部权重，然后利用平均一致性算法计算其全局权重

并进行归一化；最后，根据粒子和权重计算出当前k时刻的声源位置。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。

本实施例是基于如图2所示的分布式麦克风网络的通信图进行说明。具体的模拟设置为：仿真环境是大小为5m×5m×3m的典型会议室，其中共有L＝12个随机分布的麦克风节点，每个节点包括一对麦克风，两个麦克风之间的距离为D_m＝0.6m。各个麦克风的位置可以预先通过校准算法估计得到。目标声源的运动轨迹是一个从(0.9,2.65)m到(4.1,2.65)m的半圆弧，如图3所示。为简便起见，麦克风的位置以及声源的移动轨迹都在高度为z＝1.5m的平面上。声音传播速度为c＝343m/s。x_k表示为在k时刻声源的状态向量。在本实施例中，原始无混响的语音信号是一段长度为4s、采样频率为f_s＝16kHz的单通道16bit的纯净女性英语发音。在模拟期间，语音信号沿着如图2所示的移动轨迹被分成K＝120帧，帧长度为ΔT＝32ms。目标声源和麦克风之间的房间脉冲响应采用Image模型生成。将原始无混响的语音信号先与其对应的房间脉冲信号进行卷积，然后加上不同强度的高斯白噪声，最终可得到受噪声和混响污染的麦克风接收音频信号。

S1：在每一个节点l构造局部观测

首先，在节点l处计算两个麦克风信号之间的相位加权广义互相关(GCC-PATH)函数

即

其中，

和

分别表示为在节点l处的时域麦克风信号

和

的所对应的频域部分，符号*表示为复共轭操作。

进一步地，利用GCC函数

的多个局部极值点构造局部观测

局部观测

由GCC函数

的前N_n个最大峰值对应的时延组成，即

其中，

中的每一个元素

称为节点l的TDOA候选值，且

为节点l处可能的最大TDOA值，即

和

为节点l处包含的麦克风对与声源的距离,||·||为欧几里得范数。在本实施例中，N_n＝4。

S2，计算出k-1时刻的每一个粒子

的辅助变量

及其权重

其中,j＝1,2,…,N。具体地说，先计算出辅助变量

进一步地通过多假设模型计算出局部似然概率

再对局部似然概率

进行一致性迭代得到全局似然概率

最后通过公式

计算出权重

并进行归一化，即

在本实施例中，每个节点具有N＝500个粒子。辅助变量权重

的计算公式为

其中E{·}为数学期望。接着，通过多假设模型计算出局部似然概率

多假设模型如下：

其中，

为节点l处的最大可能到达时间差(TDOA)，可由S1得出。q_n为第n个TDOA候选值与声源相关联的先验概率，且

为节点l处的TDOA的候选值，

表示服从正态分布

的随机向量在取值为

处的概率密度，且

表示状态

对应的位置向量。在本实施例中，N_n＝4,q₀＝0.25,q_n＝0.1825，观测标准偏差是σ＝5×10⁵。

进一步地，对局部似然概率

进行平均一致性迭代得到似然概率

平均一致性算法通常是以分布式方式计算平均值的方法。假设每个节点l∈v处的某个变量的初始值为i^l(0)，并且其平均

可以通过以下递归共识迭代逐渐实现,

其中，t为迭代指数，ξ_ll′是边(l,l′)的加权系数。随着迭代次数的增加，每个节点l∈v处的变量i^l(t)可以逐渐收敛于全局平均，即

特别地，ξ_ll′采用的是Metropolis-Hastings加权，即

此一致性迭代算法仅仅需要临近节点的信息，而不需要全局信息，大大加大了算法的优化性。

迭代结束后，通过公式

计算出权重

并进行归一化，归一化的计算方法为：

S3，根据权重

对k-1的粒子

进行重采样得到

并设置其权重为

1/N；重采样公式如下:

其中，i＝1,2,…,N。δ(·)为多维狄拉克函数，jⁱ表示与第i个粒子

相对应的k-1时刻的粒子

的索引，在后面计算中，通常省略索引。

S4，通过声源的运动模型以及k-1时刻的粒子

预测得到k时刻的粒子

具体地，运动模型用郎之万模型进行迭代，即

其中，ΔT＝N_f/f_s是两次连续位置之间的时间间隔，N_f和f_s是采样帧长和采样频率。u_k是具有零均值和四阶协方差矩阵的高斯过程噪声序列，它反映了声源运动的不确定性。a＝e^-βΔT,

其中a是位置常数，b是速度常数，其中β是速率常数，

是稳定速度常数。在本实施例中，N_f＝512，β＝10s^-1，

ΔT＝32ms，f_s＝16kHz。

S5，计算出每一个粒子

的权重

具体地说，通过多假设模型计算出局部似然概率

再对局部似然概率

进行一致性迭代得到全局似然概率

最后得出权重

并归一化，其中，局部似然概率

仍采用多假设模型计算，即

其中，

n＝1,2,…,N_n。q_n为第n个TDOA候选者与真正声源相关联的先验概率，且

为节点l处的TDOA的候选值，

表示服从正态分布

的随机向量在取值为

处的概率密度，且

表示状态

对应的位置向量。在本实例中，q₀＝0.25,q_n＝0.1825，σ＝5×10⁵。

然后，对局部似然概率

进行平均一致性迭代得到全局似然概率

即

其中，exp()和log()分别表示自然指数和自然对数运算。在本实例中，共执行N_t＝10次一致性迭代。

迭代结束后，计算k时刻第i个粒子

的权重

计算公式如下：

其中，jⁱ表示粒子

前一时刻粒子

的索引。

可由S2得出。

最后，归一化权重

S6，根据粒子及其权重计算出声源位置

其中，

为状态

对应的位置向量。

Claims

1.一种基于分布式辅助粒子滤波的声源跟踪方法，包括以下步骤：

S1，在每一个节点l处计算广义互相关函数

利用

的多个局部极值点构造局部观测

其中l＝1,2,…,L,L为麦克风节点的数目，k＝1,2,…,K,，K为对声源进行位置估计的帧数；

S2，计算k-1时刻的每一个粒子

的辅助变量

及其权重

其中j＝1,2,…,N；

S3，根据权重

对k-1的粒子

重采样得到

其中，jⁱ表示与第i个粒子

相对应的k-1时刻的粒子

的索引；

S4，根据声源动态模型以及k-1时刻的粒子

预测k时刻的粒子

S5，计算每一个粒子

的权重

S6，根据粒子

及其权重

计算声源位置

其中，

为状态

对应的位置向量。

2.根据权利要求1所述的方法，其特征在于：步骤S2具体包括以下步骤：

S21，通过公式

计算辅助变量

S22，通过多假设模型计算局部似然概率

S23，利用平均一致性迭代公式由局部似然概率

计算全局似然概率

S24，通过公式

计算辅助变量

的权重

S25，归一化权重

3.根据权利要求2所述的方法，其特征在于：步骤S23具体包括以下步骤：

S231,计算局部似然概率

的对数

S232,根据初始值

通过平均一致性迭代公式

得到全局平均

S233,由公式

计算得到全局似然概率

4.根据权利要求1所述的方法，其特征在于：步骤S5具体包括以下步骤：

S51，通过多假设模型计算局部似然概率

S52，利用平均一致性迭代公式由局部似然概率

计算全局似然概率

S53，通过公式

计算权重

S54，归一化权重

其中i＝1,2,…,N。

5.根据权利要求1所述的方法，其特征在于：步骤S1中每一个节点l依据广义互相关函数

的前N_n个最大值对应的时延作为该节点的局部观测

即

6.根据权利要求4所述的方法，其特征在于，步骤S52具体包括以下步骤：

S521，计算局部似然概率

的对数

S522，根据初始值

通过平均一致性迭代公式

得到全局平均

S523，由公式

计算得到全局似然概率

7.根据权利要求2或4所述的方法，其特征在于，所述多假设模型为：

式中，

为节点l处的最大可能到达时间差TDOA，q_n为第n个TDOA候选值与声源相关联的先验概率，且

为节点l处的TDOA的候选值，

表示服从正态分布

的随机向量在取值为

处的概率密度，且

表示状态x_k对应的位置向量，

和

分别表示节点l内的两个麦克风的位置向量。