CN109901112B

CN109901112B - 基于多通道声获取的声学同时定位与建图方法

Info

Publication number: CN109901112B
Application number: CN201910250346.XA
Authority: CN
Inventors: 宋浠瑜; 王玫; 仇洪冰; 罗丽燕; 孙昊彬
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-10-04
Anticipated expiration: 2039-03-29
Also published as: CN109901112A

Abstract

本发明公开了基于多通道声获取的声学同时定位与建图方法，是通过多通道声获取方式，基于几何声学镜像模型，分析语音信号传播过程中的信道状态，实现室内声场环境空间感知，并利用空间感知结果提升移动声源（说话人）连续定位性能的方法。本发明方法通过引入Delaunay三角剖分方法，分析移动声源的运动状态，估计声源位置的自适应搜索子空间，避免了在室内声场全空间范围内对移动声源位置重复搜索的繁琐与冗余，提高了空间感知与移动声源定位方案的普适性，不仅适用于室内空间轮廓重构，也适用于室内环境的移动声源跟踪定位。

Description

基于多通道声获取的声学同时定位与建图方法

技术领域

本发明涉及室内定位领域，具体是一种基于多通道声获取的声学同时定位与建图方法。

背景技术

室内空间庞大复杂，基于位置的人工智能应用越来越多样化，位置感知已成为万物互联的重要基础。室内室位技术在过去20年间得到了广泛的研究和发展，人们提出了多类基于不同物理载体和测算原理的定位技术，包括基于电磁波信号到达时延/时差/角度的定位、基于电磁波信号强度测量与衰减模型的定位、地磁/电磁波的空间指纹特征信息匹配定位与多源信息融合定位等。由于人类活动干扰、信号多径传播、基础设施依赖等因素影响，上述室内定位技术的推广应用，已难以满足当前社会发展对位置感知与服务的迫切需求。

音频信号通常包含有关声学环境的信息，基于几何声学模型，采用阵列感知方式，可实现室内声源的主动定位。此外，由于空气中声速较低，在相同时间测量精度下，其距离分辨率高于电磁波，因此，近年来室内声学定位受到了研究人员的关注。声学场景映射（Acoustic Scene Mapping，ASM）是一种在声场环境的空间地图中显示移动声源的位置与轨迹的技术，它对于诸如家庭自动化，电话会议，搜索和救援机器人以及人机交互的应用而言十分必要。然而，如何在无基础设施依赖的情况下，获取声场环境的空间地图，并利用该地图信息提升声源定位性能极具挑战。

声学同时定位与建图（Acoustic SLAM）是将感兴趣目标的位置获取与声场环境空间地图的构建进行联合估计的一种技术，也是解决声学场景映射问题的有效途径。传统的声学SLAM研究方法，为了将位置获取与地图构建进行联合推算，常采用一些滤波算法来对目标位置与环境特征点进行估计，如利用粒子滤波算法估计移动声源位置，卡尔曼滤波算法推导环境特征点位置，然后采用基于估计理论分析的贝叶斯滤波来对下一步位置与地图信息进行估计；又或者通过凸优化的方法对位置获取与地图构建进行联合推算。但是，这些方案尽管付出了较高的计算复杂度为代价，其声场环境空间地图的构建结果也仅限于室内空间几何轮廓，即对于在日常生活中常见的矩形轮廓室内环境而言，这些声学SLAM方案存在“一步一重构”的冗余计算。因此，在室内复杂声场环境中，即能降低构建声场环境空间地图的复杂度，又能提高室内移动源的定位精度是声学SLAM研究的关键。

目前，常见的空间感知技术主要有视觉，激光/毫米波雷达测距，声波测距等，主要解决了从大量地标测量数据中重构环境地图的问题，为实现室内高精度定位提供了可能。然而，基于视觉的空间感知方式对室内隐私保护产生了极大的威胁；基于激光雷达的空间感知局限于特殊应用场景和专用设备；在几何声学范畴内基于房间冲激响应分析的空间感知技术，已经有较为成熟的研究。早至二十世纪初期，国外学者就开始利用单声源+麦克风阵列，或者单声源+单麦克风，或者收发一体的多设备协作方式，基于几何声学相关理论，进行室内空间感知与声源定位的研究。如：利用声纳估计室内空间占用率；利用回声与多径信号，构画室内几何形状，分析室内空间尺寸；基于室内空间尺寸与室内混响先验，实现盲源分离，提高目标源的TDOA识别准确率，提高目标源的跟踪定位精度；利用室内混响，提高阵列对目标源定位性能的鲁棒性等。但是，高精准的空间感知结果以高计算复杂度为代价，且房间冲激响应的测量常依赖于特殊声源信号与专用接收设备，这制约了空间感知技术的推广应用。语音信号作为一种易获取的声音信号，充分考虑其短时平稳特性，以广义互相关的分析方法获取信号传播的时延估计，进而分析语音信号传播过程中的信道状态，探究基于语音信号分析的空间感知技术，对降低构建声场环境空间地图的复杂度极其关键。

室内声场环境空间感知的目的是为了提升声源的定位性能。图形学相关研究成果表明：三角网络模型可以较好地分析室内空间拓扑结构。因此，利用三角剖分方法中的Delaunay剖分优势，分析室内声场环境空间感知结构，是提升声源定位性能的有效方法。

发明内容

针对室内复杂环境对声信号传播的衰减与损耗，导致现有室内移动声源自定位能力仍然不足的问题，本发明提出了一种基于多通道声获取的声学同时定位与建图方法，以构建室内声场环境的空间几何轮廓，并提升移动声源连续定位性能。

实现本发明目的的技术方案是：

基于多通道声获取的声学同时定位与建图方法，包括如下步骤：

（1）估计声场环境的空间几何轮廓：

根据声场环境的空间几何轮廓，对麦克风接收信号进行分析，推算出房间长、宽、高信息

，根据声源、麦克风与反射墙体之间的位置关系，基于几何声学镜像原理，得到房间几何轮廓

、声源初始位置

及坐标系正轴指向的一阶镜像声源（

，

和

）关系：

（1）

根据式（1），将对

的求解转化为对声源初始位置

及其一阶镜像声源（

,

和

）的求解；

（2）声学场景映射：

利用Delaunay三角剖分方法来分析室内声场环境空间感知结果

，并根据

的估算结果，结合剖分效果，推导出声源空间位置的自适应搜索体元

。

步骤（1）所述对声源初始位置

求解的步骤如下：

将麦克风阵列x轴的麦克风看成一个等距线阵，设阵元间距为

，由于麦克风阵列原点

己知，则线阵上每一个麦克风位置

己知。设该线阵有8个麦克风，则

，由DSB可以计算波束输出

（2）

其中，时延

，

为声速，

为每路接收信号的权重，

为每个麦克风的接收信号；由于

与

同处于坐标系的x方向，因此，只需要求解

与

的距离

，就可以根据

位置坐标计算出

的估值即：

（3）

其中，

是求解欧氏距离运算符，

表示声源

到达

的直达声传播时间，

为采样频率；设声源模板信号为

，则可以通过

与

的广义互相关计算求解出

：

（4）

（5）

其中，

，

，

和

分别是

和

的离散傅里叶变换；根据声学镜像原理，可以从

上检索到一阶镜像源

到达

的直达声传播时间

：

（6）

因此，我们可以得到

和

的位置如下所示：

（7）

（8）

此外，根据镜像模型中的对称关系，我们还可以根据己求得的

，计算出以下一阶镜像源位置

，

和

：

（9）

（10）

（11）。

步骤（1）所述对一阶镜像声源（

,

和

）求解的步骤如下：

将立体麦克风阵列的的

个麦克风，看成空间中的一个点集，对该点集建立其欧氏距离阵

，并将每个一阶镜像声源逐一补充到该点集中，则形成一个扩充的欧氏距离阵：

（12）

（13）

其中，

可以根据空间几何与勾股定理得到：

（14）

因此，可以得到

和

的位置如下所示：

（15）

（16）。

步骤（2）所述

的获取依赖于SRC-like算法，该算法步骤如下：

1）输入空间感知结果

和声源初始位置估值

，以

为圆心，

为步长构建一个圆球区域；

2）将该圆球内的所有Delaunay三角剖分样点记为点集

；

3）根据Delaunay三角剖分生成的房间剖分网格，寻找

的相关点集

；

4）根据点集

，计算其边界，从而获得

。

本发明的优点是：该方法以三维立体阵为麦克风阵列拓扑，以说话人为移动声源，充分利用了几何声学原理进行空间几何轮廓感知，将空间感知结果通过三角剖分方法，应用于移动声源的连续定位中，摆脱了传统声学SLAM方法在规则矩形房间内“一步一重构”的冗余计算，也避免了传统随机区域收缩算法在位置解算时对室内声场空间的全范围搜索，提高了移动声源定位性能，具有较低的复杂度和较高的普适度，能满足声学场景映射的需求。

附图说明

图1为本发明实施例基于多通道声获取的声学同时定位与建图方法系统框图；

图2为本发明实施例室内环境中声源、麦克风与反射墙体之间的位置关系图；

图3为本发明实施例Delaunay三角剖分结果示意图；

图4为本发明实施例基于SRC-like的ASM效果示意图；

图5为本发明实施例SRP-PHAT-SRC-like与传统SRP-PHAT-SRC的定位误差与计算性能比较示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步阐述，但不是对本发明的限定。

实施例：

如图1所示，本发明所提出基于多通道声获取的声学同时定位与建图方法系统框图，主要分为两部分：

(1)估计声场环境的空间几何轮廓；

(2)声学场景映射。

其中，DSB是指延时求和波束成形，AIM是指声学镜像模型，EDM是指欧氏距离矩阵，SRP-PHAT是指最大可控响应功率相位变换。

如图2所示，图2给出室内环境中反射墙体、移动声源与麦克风阵列的位置关系。以房间的一个角落作为房间坐标系原点

,

是麦克风阵列原点。坐标系的正x轴指向地理方位的南向，正y轴指向地理方位的东向，正z轴指向房间的天顶，相应地，负x轴指向地理方位的北向，负y轴指向地理方位的西向，负z轴指向房间的地板。

是声源的初始位置，

是

对应于第

面墙体的一阶镜像源，

的索引号与墙体的对应关系如图2 中标注所示。

(1)估计声场环境的空间几何轮廓

估计声场环境的空间几何轮廓，也就是对麦克风接收信号进行分析，以推算出房间长、宽、高信息

。根据图2所示的声源、麦克风与反射墙体之间的位置关系，基于几何声学镜像原理，可以得到房间几何轮廓

、声源初始位置

及坐标系正轴指向的一阶镜像声源（

，

和

）关系：

（1）

根据上述关系式，将对

的求解转化为对声源初始位置

及其一阶镜像声源（

,

和

）的求解。

基于DSB求解声源初始位置

及其一阶镜像源

将麦克风阵列x轴的麦克风看成一个等距线阵,设阵元间距为

，由于麦克风阵列原点

己知，则线阵上每一个麦克风位置

己知。设该线阵有8个麦克风，则

，根据图2所示，由DSB可以计算波束输出

（2）

其中，时延

，

为声速，

为每路接收信号的权重，

为每个麦克风的接收信号。由于

与

同处于坐标系的x方向，因此，只需要求解

与

的距离

，就可以根据

位置坐标计算出

的估值即：

（3）

其中，

是求解欧氏距离运算符，

表示声源

到达

的直达声传播时间，

为采样频率。设声源模板信号为

，则可以通过

与

的广义互相关计算求解出

：

（4）

（5）

其中，

，

，

和

分别是

和

的离散傅里叶变换。根据声学镜像原理，可以从

上检索到一阶镜像源

到达

的直达声传播时间

：

（6）

因此，得到

和

的位置如下所示：

（7）

（8）

此外，根据镜像模型中的对称关系，还可以根据己求得的

，计算出以下一阶镜像源位置

，

和

：

（9）

（10）

（11）

基于EDM的一阶回波检索求解

和

将图2所示的立体麦克风阵列的

，并考虑将每个一阶镜像声源逐一补充到该点集中，则形成一个扩充的欧氏距离阵：

（12）

（13）

其中，

可以根据空间几何与勾股定理得到：

（14）

因此，可以得到

和

的位置如下所示：

（15）

（16）

(2)声学场景映射

声学场景映射的需求在于在声场环境的空间地图中显示移动声源的位置与轨迹，而声学SLAM中利用声场环境的空间感知结果来提升声源定位性能的效果恰恰能满足声学场景映射的需求。

本发明利用Delaunay三角剖分方法来分析室内声场环境空间感知结果，并在此分析结果上，提出一种改进的随机区域收缩算法（stochastic region contraction-like,SRC-like），用于推算移动声源空间位置的自适应搜索体元，通过在该自适应体元内搜索最大的声功率位置来估计移动声源位置。该算法避免了传统随机区域收缩算法（SRC）在位置解算时对室内声场空间的全范围搜索，有效降低了移动声源的定位误差与计算复杂度。

将空间感知结果

如图3(a)所示，进行Denaulay三角剖分，得到如图3(b) 的效果，并根据

，如图3(c)所示。

的获取依赖于本发明所提出的SRC-like算法，该算法步骤如下所述：

Step1: 输入空间感知结果

和声源初始位置估值

，以

为圆心，

为步长构建一个圆球区域；

Step2: 将该圆球内的所有Delaunay三角剖分样点记为点集

；

Step3: 根据Delaunay三角剖分生成的房间剖分网格，寻找

的相关点集

；

Step4: 根据点集

，计算其边界，从而获得

。

图4给出了采用SRP-PHAT-SRC-like算法的声学场景映射的2D和3D效果，图中红色的点是声源位置参考点，蓝色的点是由SRP-PHAT-SRC-like算法估算出的声源位置，其中，以圈相连接的位置表示位置误差在0.034m~0.21m之间，以箭头相连接的位置表示位置误差在0.30m~1.03m之间。

图5给出了所提算法SRP-PHAT-SRC-like与传统SRP-PHAT-SRC在声源连续定位误差与计算性能的比较图。从比较结果可以看到，所提SRP-PHAT-SRC-like算法相对传统SRP- PHAT-SRC在定位精度上提升了70%（24个位置中有17个位置的误差值较低），然而每一个位置的计算量均比传统SRP-PHAT-SRC要低得多，最多可以节省

次运算。