CN110703200B

CN110703200B - 基于声学超材料的单通道多声源定位与分离装置及方法

Info

Publication number: CN110703200B
Application number: CN201910911975.2A
Authority: CN
Inventors: 孙雪聪; 贾晗; 杨军
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-07-30
Anticipated expiration: 2039-09-25
Also published as: CN110703200A

Abstract

本发明公开了一种基于声学超材料的单通道多声源定位与分离装置，包括：超材料球壳、麦克风、信号采集模块和信号处理模块；所述的超材料球壳包括三层同圆心的半球，每层半球的表面均设置多个尺寸不同的圆孔，圆孔之间无重叠；各层之间设置若干块横向和纵向的隔板；所述的超材料球壳用于对来自三维空间中不同方向的信号进行物理层的编码；所述单通道麦克风置于球壳的球心处；用于拾取被超材料球壳调制的信号；所述信号采集模块用于对麦克风的输出信号进行采集；所述信号处理模块用于存储训练得到的相关参数和字典，还用于利用相关参数和字典对采集的信号进行定位与分离。本发明的装置不需要多通道数据同步采集，系统简单，便携性更强，也更易操控。

Description

基于声学超材料的单通道多声源定位与分离装置及方法

技术领域

本发明涉及声源定位与分离领域，特别涉及基于声学超材料的单通道多声源定位与分离装置及方法。

背景技术

在人工系统中，声源定位和分离的传统方法常常需要使用两个及以上的麦克风，该方法的定位和分离的精度往往受到阵列物理尺寸和麦克风个数的限制，不仅不便于安装和操控，处理多通道信号的计算成本往往也很大，导致在一些特殊场合无法得到应用。而对诸如人等许多生物体而言，仅依靠两只耳朵就能完成高精度的定位和分离任务,甚至只需要一只耳朵。导致这种差异的原因主要有两个：首先，人的耳朵并不像麦克风一样是直接裸露在空气中的，声波到达耳膜之前会受到头部、肩膀、外耳和耳道等一系列散射作用，由于这些结构是不规则的，因此最终收到的来自空间各个方向的信号也就具有了差异性，而人脑正是基于这样的差异性完成后续的定位和分离任务的，上述散射过程被建模为头部相关传递函数(Head-related transfer function,HRTF)。其次，人脑有很强的学习能力，可以基于自己多年的听音经验所获得的先验知识，对声音进行定位和分离。心理学研究还发现，与成人相比婴儿的单耳定位能力较差，这可能就是因为婴儿的听音经验较少，还无法很好的获得典型声音的先验知识。

因此，受上述滤波机制启发，可以为麦克风加上外壳并结合与之相适应的重建算法实现单通道定位与分离。所述的麦克风外壳需要打破单麦克风原有的全指向特性，使得整个系统的频响函数随方向改变而改变。近几年，声学超材料(Acoustic metamaterials)因其非凡的声波调制能力而受到了广泛关注，它可以用于通过创建高频率依赖性和空间复杂的测量模式来编码来自不同空间位置的独立声学信号，是制作超材料球壳的首选。所述的重建算法需要为定位分离系统提供一定的先验知识，使其具备一定的学习能力。压缩感知技术是近些年提出的一种寻找欠定线性系统的稀疏解的技术。构建合适的稀疏字典和相应的信号重建算法是压缩感知领域的核心研究内容。

现有的基于超材料的单通道定位分离系统所设计的超材料外壳是二维的，如申请号为201811497943的中国专利，因此其主要关注的是二维空间的定位与分离问题。且所用的重建算法需要在复数域构建字典，不仅在信号采集阶段需要使用额外的参考麦克风，重建过程也具有较高的计算复杂度，致使整个系统的实时性较差。

综上所述，考虑到实际应用中的声源多是在三维空间内随机出现的，且若要在追踪等领域进行应用，需要系统有较好的实时性。因此构建一个的三维的单通道声源定位与分离系统，并提出一个与之相适应的低复杂度的重建算法是一个值得探索的问题。

发明内容

本发明的目的是克服现有技术的不足，提出一种基于声学超材料的单通道多声源三维定位装置，该装置在硬件上仅依赖一个超材料球壳和一个单通道麦克风，就能够实现三维空间内的声源定位与分离，在保证准确性的同时还具有很好的实时性。

为实现上述目的，本发明提出了一种基于声学超材料的单通道多声源定位与分离装置，所述装置包括：超材料球壳、麦克风、信号采集模块和信号处理模块；

所述的超材料球壳包括三层同圆心的半球，每层半球的表面均设置多个尺寸不同的圆孔，圆孔之间无重叠；各层之间设置若干块横向和纵向的隔板；所述的超材料球壳用于对来自三维空间中不同方向的信号进行物理层的编码；

所述单通道麦克风置于球壳的球心处；用于拾取被超材料球壳调制的信号；

所述信号采集模块，用于对麦克风的输出信号进行采集；

所述信号处理模块，用于存储训练得到的相关参数和字典，还用于利用相关参数和字典对采集的信号进行定位与分离。

作为上述装置的一种改进，所述的超材料球壳的三层半球的半径分别为24cm,16.8cm,7.2cm；共设置8块横向的隔板和16块纵向的隔板，把球壳的腔体分为24个独立区域；最内层的半球的底面上放置吸声棉。

作为上述装置的一种改进，所述的超材料球壳的材料为塑料或金属。

作为上述装置的一种改进，所述的超材料球壳采用3D打印、激光切割或数控加工制成。

作为上述装置的一种改进，所述麦克风为全指向性麦克风。

作为上述装置的一种改进，所述相关参数和字典的训练步骤包括：

步骤101)对需要定位的三维空间进行网格划分，离散成N个格点，编号为1～N；

步骤102)选定语料库，包含M种不同的信号，编号为1～M；

步骤103)在所有格点处放置扬声器，依次播放语料库中的所有信号作为训练信号；

步骤104)训练信号在空间中自由传播至超材料球壳表面，被超材料球壳调制后，由麦克风拾取，信号采集模块对麦克风的输出信号进行采集，输出至所述信号处理模块；

步骤105)所述信号处理模块对训练信号进行分帧、加窗和短时傅里叶变换处理，得到每个训练信号每一帧的频谱，作为该训练信号的训练集；

第n个格点的第m个音频信号的训练集组成的矩阵X_nm为：

其中，

为第q帧信号的频谱在ω_p频率处的幅值，其中p＝1,2,...,P,q＝1,2,...,Q，P为短时傅里叶变换的总频点数，Q为信号分帧的总帧数；

步骤106)将所有信号的训练集的矩阵进行合并，得到全部信号的训练集矩阵

X＝[X₁₁ … X_1M X₂₁ … X_2M … X_N1 … X_NM]

计算矩阵X每一维特征的均值μ和标准差σ：

μ＝[μ₁,μ₂,...,μ_P]^T,

σ＝[σ₁,σ₂,...,σ_P]^T,

其中，x_ij为矩阵X第i行第j列的元素；L为训练集样本总数，L＝Q×M×N；μ_i为均值μ的第i个分量；σ_i为标准差σ的第i个分量；

步骤107)对矩阵X进行标准化，得到标准化的训练集矩阵

该矩阵的第i行j列的元素

为：

使用主成分分析方法计算训练集

的投影矩阵

步骤108)使用投影矩阵B对标准化后的训练集矩阵

进行降维，得到字典

步骤109)信号处理模块保存均值μ、标准差σ、投影矩阵B和字典A。

基于上述装置，本发明还提出了一种基于声学超材料的单通道多声源定位与分离方法，所述方法包括：

实时声音信号在空间中自由传播至超材料球壳表面，被超材料球壳调制后，然后由麦克风拾取，信号采集模块对麦克风的输出信号进行采集，输出至信号处理模块；

信号采集模块对麦克风的输出信号进行采集，输出至信号处理模块；

所述信号处理模块对采集的信号进行处理，构建信号的矩阵并进行标准化，对标准化的矩阵进行降维，基于已存储的字典和降维后的矩阵得到重建结果，根据重建结果获取K个声源所在的位置格点编号及其所播放的音频信号的编号，从而获取K个声源的具体位置和信号内容。

作为上述方法的一种改进，所述信号处理模块对采集的信号进行处理，构建信号的矩阵并进行标准化，对标准化的矩阵进行降维，基于已存储的字典矩阵和降维后的信号矩阵得到重建结果，根据重建结获取K个声源所在的位置格点编号及其所播放的音频信号的编号，从而获取K个声源的具体位置和信号内容，具体包括：

步骤201)所述信号处理模块对采集到的信号进行分帧、加窗和短时傅里叶变换处理，得到信号的每一帧的频谱

构建信号的数据集矩阵

其中，

为第

帧信号的频谱在ω_p频率处的幅值；P为短时傅里叶变换的频点数，

为信号分帧的总帧数，

步骤202)根据已知的信号的稀疏度K，将数据集进行标准化，得到标准化后的数据集矩阵

其中第s行t列的元素

为：

其中，y_st为矩阵Y第s行t列的元素；μ_s为均值μ的第s个分量；σ_s为标准差σ的第s个分量；

步骤203)使用投影矩阵B对标准化后的矩阵

进行降维，得到降维后的矩阵

其中矩阵G的第

列记做

对应于信号的第

帧；

为矩阵G的行数；

步骤204)基于字典A和向量

利用OMP算法求解以下优化问题：

其中，稀疏向量

是待求解的向量，对应该测试信号第

帧的重建结果；

步骤205)对统计向量s¹,s²,...,

中前K个大的元素所对应的位置索引

并构建矩阵

并构建矩阵

步骤206)统计矩阵D每个数字出现的频次，选择频次最高的前K个数字作为最终的位置索引d₁,d₂,...,d_K，则这K个声源所在的位置格点编号n_k及其所播放的音频信号的编号m_k分别为：

k＝1,2,...,K

其中，

为向上取整，mod为取余数；

根据计算得到的位置格点编号和音频信号编号，根据划分的格点和语料库，获取K个声源的具体位置和信号内容。

与现有技术相比，本发明的优点在于：

1、本发明的装置只使用一个带有超材料球壳的单通道麦克风就可以实现三维空间中多声源的实时定位与分离；与多通道麦克风阵列相比，所述装置不需要多通道数据同步采集，系统简单，便携性更强，也更易操控；

2、本发明所提出的重建算法在保证重建精度的同时拥有较低的复杂度，因此该装置也可与智能监测系统等结合，实现对多目标的实时识别与追踪。

附图说明

图1为本发明的基于声学超材料的单通道多声源定位及分离装置示意图；

图2为本发明的超材料球壳的结构示意图；

图3为本发明的相关参数及字典A的训练流程图；

图4为本发明的基于声学超材料的单通道多声源定位及分离方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

实施例1：

如图1所示，本发明的实施例1提出了一种基于声学超材料的单通道多声源定位与分离装置，包括：超材料球壳，一个单通道麦克风置于球壳的球心处，声卡与麦克风相连，计算机与声卡相连，计算机内预置了信号处理模块；播放训练信号，由信号处理模块训练和保存相关参数和字典A。

超材料球壳包括三层同圆心的半球，每层半球的表面均设置多个尺寸不同的圆孔，圆孔之间无重叠；各层之间设置若干块横向和纵向的隔板；所述的超材料球壳用于可以用来波的方式修改麦克风的频率响应，从而对来自三维空间中不同方向的信号进行物理层的编码；

三维超材料球壳采用3D打印技术、激光切割或数控加工制造方法制成，材料包括塑料、金属等。

所述的超材料球壳的结构示意图如图2所示，为三层穿孔半球结构，半径从外到内分别为24cm,16.8cm,7.2cm；每一层球壳表面均有大小不一的圆孔，圆孔之间无重叠；球壳之间有8块横向的隔板和16块纵向的隔板，把球壳间的腔体分为24个独立区域；球壳最内层腔体的底面上铺有吸声棉。

所述的麦克风为全指向麦克风，放在超材料球壳的球心位置。

各声源信号先在空间内自由传播，然后受到超材料球壳的调制，最后被麦克风接收。麦克风接收到的信号先输出到声卡，再由声卡输入到计算机中，经过预置的信号处理模块处理后得到各声源的位置信息及所发信号的内容。

如图3所示，信号处理模块训练相关参数和字典A包括以下步骤：

步骤102)选定语料库，包含M种不同的信号，编号为1～M；

步骤104)训练信号在空间中自由传播至超材料球壳表面，被超材料球壳调制后，由麦克风拾取，使用声卡对麦克风的输出信号进行采集，使用计算机对采集到的信号进行分帧、加窗和短时傅里叶变换(short-time Fourier transform,STFT)处理，得到每个训练信号每一帧的频谱，作为该训练信号的训练集；

第n个格点的第m个音频信号的训练集组成的矩阵X_nm为：

其中，

为第q帧信号的频谱在ω_p频率处的幅值，其中p＝1,2,...,P,q＝1,2,…,Q，P为短时傅里叶变换的总频点数，Q为信号分帧的总帧数；

将所有信号的训练集进行合并，得到全部信号的训练集

X＝[X₁₁ … X_1M X₂₁ … X_2M … X_N1 … X_NM]

步骤105)计算训练集X每一维特征的均值μ和标准差σ

μ＝[μ₁,μ₂,...,μ_P]^T,

σ＝[σ₁,σ₂,...,σ_P]^T,

其中，L为训练集样本总数，L＝Q×M×N。

步骤106)对训练集X进行标准化，得到标准化的训练集

其中第i行j列的元素

的计算方法为

其中，x_ij为训练集X第i行j列的元素。

步骤107)使用主成分分析方法(Principal Component Analysis，PCA)计算训练集

的投影矩阵

步骤108)使用投影矩阵B对标准化后的训练集

进行降维,得到字典

实施例2：

如图4所示，本发明的实施例2提出了一种基于声学超材料的单通道多声源定位与分离方法，该方法包括：

步骤201)实时声音信号在空间中自由传播至超材料球壳表面，被超材料球壳调制后，然后由麦克风拾取，信号采集模块对麦克风的输出信号进行采集，输出至信号处理模块；

步骤202)所述信号处理模块对采集到的信号进行分帧、加窗和短时傅里叶变换处理，得到信号的每一帧的频谱

构建信号的数据集矩阵

其中，

为第

为信号分帧的总帧数，

步骤203)根据已知的信号的稀疏度K，将数据集进行标准化，得到标准化后的数据集矩阵

其中第s行t列的元素

为：

步骤204)使用投影矩阵B对标准化后的矩阵

进行降维，得到降维后的矩阵

其中矩阵G的第

列记做

对应于信号的第

帧；

为矩阵G的行数；

步骤205)基于字典矩阵A和向量

利用OMP算法求解以下优化问题：

其中，稀疏向量

是待求解的向量，对应该测试信号第

帧的重建结果；

步骤206)对统计向量s¹,s²,...,

中前K个大的元素所对应的位置索引

并构建矩阵

统计矩阵D每个数字出现的频次，选择频次最高的前K个数字作为最终的位置索引d₁,d₂,...,d_K，则这K个声源所在的位置格点编号n_k及其所播放的音频信号的编号m_k分别为：

k＝1,2,...,K

其中，

为向上取整，mod为取余数；

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于声学超材料的单通道多声源定位与分离装置，其特征在于，所述装置包括：超材料球壳、麦克风、信号采集模块和信号处理模块；

所述信号采集模块，用于对麦克风的输出信号进行采集；

2.根据权利要求1所述的装置，其特征在于，所述的超材料球壳的三层半球的半径分别为24cm,16.8cm,7.2cm；共设置8块横向的隔板和16块纵向的隔板，把球壳的腔体分为24个独立区域；最内层的半球的底面上设置吸声棉。

3.根据权利要求2所述的装置，其特征在于，所述的超材料球壳的材料为塑料或金属。

4.根据权利要求1-3之一所述的装置，其特征在于，所述的超材料球壳采用3D打印、激光切割或数控加工制成。

5.根据权利要求1所述的装置，其特征在于，所述麦克风为全指向性麦克风。

6.根据权利要求1所述的装置，其特征在于，所述相关参数和字典的训练步骤包括：

步骤102)选定语料库，包含M种不同的信号，编号为1～M；

第n个格点的第m个音频信号的训练集组成的矩阵X_nm为：

其中，

X＝[X₁₁…X_1M X₂₁…X_2M…X_N1…X_NM]

计算矩阵X每一维特征的均值μ和标准差σ：

μ＝[μ₁,μ₂,...,μ_P]^T,

σ＝[σ₁,σ₂,...,σ_P]^T,

步骤107)对矩阵X进行标准化，得到标准化的训练集矩阵

该矩阵的第i行j列的元素

为：

使用主成分分析方法计算训练集

的投影矩阵

步骤108)使用投影矩阵B对标准化后的训练集矩阵

进行降维，得到字典

7.一种基于声学超材料的单通道多声源定位与分离方法，基于权利要求6所述的装置实现，所述方法包括：

8.根据权利要求7所述的基于声学超材料的单通道多声源定位与分离方法，其特征在于，所述信号处理模块对采集的信号进行处理，构建信号的矩阵并进行标准化，对标准化的矩阵进行降维，基于已存储的字典矩阵和降维后的矩阵得到重建结果，根据重建结获取K个声源所在的位置格点编号及其所播放的音频信号的编号，从而获取K个声源的具体位置和信号内容，具体包括：