CN111123202B

CN111123202B - 一种室内早期反射声定位方法及系统

Info

Publication number: CN111123202B
Application number: CN202010010386.XA
Authority: CN
Inventors: 曲天书; 吴玺宏; 陈建非
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2022-01-11
Anticipated expiration: 2040-01-06
Also published as: CN111123202A

Abstract

本发明公开了一种室内早期反射声定位方法及系统。本方法为：1)生成不同房间的冲激响应；2)对于每一冲激响应，将其与声源信号进行卷积计算，得到一M通道的阵列信号；3)对每一阵列信号进行短时傅里叶变换，并取J个时频点；然后计算每个时频点的连续N阶HOA系数，将M通道的阵列信号转换为N²通道的阵列信号；4)将每一N²通道的阵列信号的实部和虚部分开作为单独的通道拼接，得到一2N²通道的阵列信号；然后将连续K帧打包，形成一2N²×K×J维度的样本；5)利用样本训练神经网络；对于一目标房间中的声源，将该目标房间的冲击响应和对应的2N²×K×J维度阵列信号输入训练后的神经网络，定位出该目标房间中的声源位置。

Description

一种室内早期反射声定位方法及系统

技术领域

本发明属于声源定位技术领域，具体涉及一种基于深度残差网络预测直达声与室内早期反射声到达方向的方法。

背景技术

当声源处于室内发声时，由于墙壁、天花板及地面的反射，会产生混响(reverberation)。相关研究表明，混响中的早期反射声成分(晚于直达声50ms以内到达接收点)对于提高言语可懂度是有帮助的。早期反射声是与直达声强相关的信号，其中包含直达声中的大部分信息。如果早期反射声方位信息已知，可以对每个方向波束形成进行信号提取，进而达到信号增强的目的。另一方面，早期反射声可以用于实现可听化和房间几何形状的建模。推断房间几何形状这一技术可以用在机器人领域，增强机器人的环境感知能力。

传统的声源定向算法应用于早期反射声到达方向估计(DOA)的任务时往往性能不佳。如多重信号分类(MUSIC)算法在估计信号的协方差矩阵时，由于直达声与早期反射的相干性，会存在矩阵不可逆的问题。Tervo等人利用SRP-PHAT和GCC-PHAT算法早期反射进行定位，但是二者在强混响下性能都急剧下降，后者还存在着误差累积的缺点。Tervo也提出了一种基于房间冲激响应的测量的反射路径追踪法，但这一方法的实际操作过程不易实现且不具备泛化性。Sun等人提出的EBMVDR的方法把波束形成从传统的空域转移到特征波束域(球谐域)来做，避免了相干信号带来的奇异矩阵问题，但是在实现的过程中需要手动设置和调节聚焦频率，并且只能使用较窄的频率平滑范围，难以取得较鲁棒的抗噪性能。表1列出了主要的用于早期反射声定位的方法。

表1早期反射声测向的方法

发明内容

针对室内早期反射声的到达方向估计的问题，本发明的目的在于提供一种基于深度残差网络和信号的高阶高保真度立体声响复制(Higher Order Ambisonics,HOA)系数预测早期反射声的到达方向的方法。本发明将深度神经网络应用于早期反射声的定位这一任务中，同时将HOA系数作为神经网络的输入。HOA技术的主体分为编码和解码两个部分，本发明只涉及声场编码。在编码阶段中，本发明将HOA系数作为深度残差网络的输入，实现室内早期反射声的测向系统。

本发明中采用的方案是将早期反射声DOA估计问题看作一个多声源DOA估计问题，将声场信息编码成信号的HOA系数作为输入，利用深度残差网络学习从HOA系数到各个早期反射声的目标方位的映射。

本发明的技术方案为：

一种室内早期反射声定位方法，其步骤包括：

1)在一定的参数范围内随机选择房间的尺寸、混响时间、麦克风阵列的位置、声源到麦克风阵列中心的距离，生成不同房间的冲激响应；将各房间的冲激响应作为训练神经网络的数据集；

2)对于所述数据集中每一冲激响应，将其与声源信号进行卷积计算，得到一M通道的阵列信号；

3)对每一所述阵列信号进行短时傅里叶变换，并取结果的J个时频点；然后计算每个所选时频点的连续N阶HOA系数，将M通道的阵列信号转换为N²通道的阵列信号；

4)将步骤3)处理所得每一N²通道的阵列信号的实部和虚部分开作为单独的通道拼接，得到一2N²通道的阵列信号；然后将连续K帧打包，形成一2N²×K×J维度的样本；

5)将样本输入神经网络，输出每个方向存在声源或反射声的概率向量；

6)对于一目标房间中的声源，将该目标房间的冲击响应和对应的2N²×K×J维度阵列信号输入训练后的神经网络，定位出该目标房间中的声源位置。

进一步的，生成房间的冲激响应的方法为：

11)在一定范围内对声源与麦克风阵列中心的距离采样，得到距离采样集合L，对于每一个l_i∈L，计算当声源在各设定方向角的冲激响应，形成一个冲激响应库；

12)利用房间尺寸、声源位置、麦克风阵列位置和房间反射面的吸声系数计算出混响时间内到达麦克风阵列的每一个镜像源的位置、所经过反射次数和到达时间；

13)根据步骤12)计算得到的各镜像源的位置，计算出每一镜像源到麦克风阵列中心的距离s，进而计算镜像源-麦克风阵列中心-麦克风三点连线所形成的夹角θ，然后计算得到得到(s,θ)处的镜像源对应的冲激响应；将各镜像源的冲击响应叠加得到当前房间的冲激响应。

进一步的，步骤2)之后，随机在多个设定信噪比中选择一个信噪比，并依据所选信噪比为所述阵列信号添加不相关的高斯白噪声，使得所述数据集中各设定信噪比对应的样本数量均匀。

进一步的，步骤3)中，首先计算所述阵列信号的512点短时傅里叶变换，并取结果的255个频点；然后计算每个时频点的0～4阶HOA系数，得到25通道的阵列信号。

进一步的，所述麦克风阵列为球麦克风阵列，所述声源处于麦克风球阵列的赤道面上。

进一步的，所述神经网络为深度残差网络。

进一步的，所述深度残差网络包括依次连接的第一卷积层、第二卷积层、若干残差模块、第三卷积层、交换维度模块、第四卷积层和第五卷积层；其中，第一卷积层用于对输入的样本在频率维度上抽取各频点所蕴含的对DOA估计有贡献的信息；第二卷积层用于对第一卷积层处理得到的数据在频率维度进行信息整合，得到高维空间中的特征表示并输入到残差模块；所述残差模块将输入特征抽象成更高层次的表示后输入第三卷积层；第三卷积层用于将输入数据的通道数映射到水平面上的每个方向；所述交换维度模块用于将数据的频率维度和通道维度互换；第四卷积层、第五卷积层沿着时间-方向所构成的平面对输入数据进行卷积计算。

进一步的，所述残差模块包括串行连接的第一1×1卷积层、3×3卷积层和第二1×1卷积层；每一层卷积层后设有batch normalization层和ReLu激活函数。

进一步的，训练时采用均方误差作为损失函数

其中，p′为深度残差网络的输出向量，p为代表声源真实方位的似然值向量。

一种基于深度残差网络和HOA系数的室内早期反射声定位系统，其特征在于，包括数据集生成模块、样本信号生成模块、训练模块和定位模块；其中，

所述数据集生成模块，用于在一定的参数范围内随机选择房间的尺寸、混响时间、麦克风阵列的位置、声源到麦克风阵列中心的距离，生成不同房间的冲激响应；将各房间的冲激响应作为训练神经网络的数据集；

所述样本信号生成模块，用于对于所述数据集中每一冲激响应，将其与声源信号进行卷积计算，得到一M通道的阵列信号；然后对每一所述阵列信号进行短时傅里叶变换，并取结果的J个时频点，并计算每个所选时频点的连续N阶HOA系数，将M通道的阵列信号转换为N²通道的阵列信号；然后将每一N²通道的阵列信号的实部和虚部分开作为单独的通道拼接，得到一2N²通道的阵列信号；然后将连续K帧打包，形成一2N²×K×J维度的样本；

所述训练模块，用于利用所述样本训练神经网络，将样本输入神经网络，输出每个方向存在声源或反射声的概率向量；

所述定位模块，用于对于一目标房间中的声源，将该目标房间的冲击响应和对应的2N²×K×J维度阵列信号输入训练后的神经网络，定位出该目标房间中的声源位置。

本发明的有益效果是：

1)通过神经网络监督学习的方式，无需估计协方差矩阵和房间冲激响应的测量等额外的人为操作，可以获得优良的抗噪性能，同时减少了系统实现的复杂性；

2)通过将声场信息转换为HOA系数，麦克风阵列采集的信号被分解到不同阶球谐函数所对应的空间正交基上，从而实现信号与阵列的摆放、空间几何位置无关，增加模型的泛化能力。由于球谐函数的正交性，HOA系数在表达信号时没有冗余信息。同时，对于宽带信号的声源定位任务而言，由于球谐函数的空间指向性图与频率无关，信号各个频率成分可以获得相同的分辨率；

3)与传统的EBMVDR方法相比，本发明所提出的方法在信噪比为10dB的环境下将预测直达声、早期反射声方向的准确率和召回率分别提高了13.67％和2.35％，在较恶劣的信噪比条件如-5dB下，准确率和召回率分别提高30.52％和17.24％。

附图说明

图1是计算房间冲激响应的流程图；

图2是生成数据集的流程图；

图3是深度残差网络结构的示意图；

图4是不同的方法在各信噪比下的准确率；

图5是不同的方法在各信噪比下的召回率。

具体实施方式

本发明提出的基于深度残差网络和HOA系数的室内早期反射声定位方法包括以下几个部分：

仿真声源信号、计算冲激响应的仿真、数据集的生成、网络结构的设置、模型的训练与测试、评价指标与结果。

下面参照本发明的附图，更详细地描述每个步骤。

1.仿真声源信号

生成均值为0，方差为0.1的高斯白噪声作为声源信号。

2.计算房间冲激响应

图1是计算房间冲激响应的流程图，各步骤的具体实现过程如下：

(1)计算自由场下的冲激响应库

本发明基于球阵列下的仿真实验，所使用的球阵列由32个均匀分布在刚性球上面全指向性的麦克风构成。设声源处于自由场中，并处在球阵列的赤道面上。由于声音在房间墙壁上会经过多次反射，会产生大量的镜像源，而完整的冲激响应可以看作所有镜像源单独作用时对应的冲激响应叠加而成的结果，如果为每一个镜像源都单独计算其与球阵列之间的冲激响应，将会耗费大量的时间。考虑到当声源处于远场时，声源与麦克风阵列中心的距离对于传递函数(冲激响应)的影响并不明显，因此为了提高计算效率，在一定的范围内对距离采样，得到一个采样点距离的集合L＝{l₁,l₂,…l_M}，M为所要考虑的采样点距离的个数，l_M为第M个采样距离。在后面的计算过程中，只考虑声源与阵列中心的距离l∈L时的情况。对于每一个l_i∈L，基于球模型计算当声源处于赤道面各个方向角的冲激响应，形成一个冲激响应库，用于之后步骤的查找计算。在得到L的过程中，采取先密后疏的采样策略，靠近阵列中心的地方要计算比较多的距离，反之，在离阵列中心较远处采样点不必过于密集。

(2)计算镜像源的到达时间和坐标

Allen等人于1976年提出了仿真房间声学性质的镜像模型。该模型利用房间尺寸，声源、麦克风的坐标，反射面的吸声系数，可以计算出混响时间内到达阵列的每一个镜像源的位置、所经过反射次数和到达时间，这些结果被用来合成最终的房间冲激响应。

(3)合成声源到阵列的房间冲激响应

根据(2)计算得到的各个镜像源的坐标，计算出每一镜像源到阵列中心的距离s，进而计算镜像源-阵列中心-麦克风三点连线所形成的夹角θ。为了得到(s,θ)处对应的冲激响应h(n；s,θ)(n为离散的时间采样点)，在(1)中得到的冲激响应库中找到与之最接近的距离s′和角度θ′所对应的冲激响应h(n；s′,θ′)，认为h(n；s,θ)≈h(n；s′,θ′)(此处为了提高精确度可以对冲激响应库进行插值)，再将其乘以该镜像源的对应的衰减系数(由墙壁吸声系数和反射次数决定)，即得到了该镜像源对应的冲激响应。对(2)中其余镜像源重复上述过程并将结果叠加，最终即得到球阵列的房间冲激响应。

3.数据集的生成

基于上述流程，在一定的参数范围内随机选择房间的尺寸、混响时间、麦克风阵列的位置、声源到麦克风阵列中心的距离，可以生成不同的房间冲激响应，从而仿真出不同的数据用于训练，表2列出了参数的选择范围，表3列出了实际用于训练和测试的房间和阵列参数。在本发明涉及的实验中，共生成了五个房间，其中三个用于训练，另外两个用于测试。图2是生成数据集的流程图。各步骤的具体实现过程如下：

(1)对于训练集/测试集，在上述已经生成的三个/两个冲激响应中随机选择一个，将其与声源信号卷积，得到32通道的阵列信号。卷积操作可以使用python的Numpy工具包实现；

(2)随机在10dB，5dB，0dB，-5dB中选择一个信噪比，并依据此信噪比为阵列信号添加不相关的高斯白噪声，保证最终的数据集中各个信噪比对应的样本是均匀的；

(3)计算阵列信号窄带各阶HOA系数。首先计算阵列信号的512点短时傅里叶变换，由于傅里叶变换的对称性，其中前512/2+1＝257个频点即可代表结果的全部信息，第1个频点代表直流分量，第257个频点代表奈奎斯特采样频率的一半，取除去这两个频点之外剩余的255个频点处的结果；然后计算每个时频点的0～4阶HOA系数，此时32个通道的信号转变为(4+1)²＝25个通道的信号；

(4)将结果的实部和虚部分开作为单独的通道拼接起来，此时一个样本的通道数变为50；将连续的22帧打包，形成一个维度为50×22×255的样本。其中，50，22，255分别代表通道维度，时间维度和频率维度的大小。

本发明所涉及的实验中，声源方向的分辨率为5°，故声源的方位角可能有72个取值。采用上述生成数据的方法，为训练集生成72×1250＝90000个样本，其中每个方向1250个；为测试集生成72×500＝36000个样本，其中每个方向500个，得到最终的数据集。表4中列出了对信号变换时涉及到的参数。

表2房间、阵列参数范围

房间长度l(m)	5～10
		房间宽度w(m)	5～10
房间高度h(m)	3～4
		混响时间RT60(s)	0.2～0.6
声源到阵列中心的距离d(m)	1～2
		阵列中心的x坐标(m)	l/2±0.2
阵列中心的y坐标(m)	w/2±0.2
		阵列中心的z坐标(m)	1～2

表3训练集和测试集的仿真条件设置

表4信号变换参数

采样率(Hz)	16000
		帧长/帧移(ms)	20/10
FFT点数	512
		HOA阶数	0～4
一个输入样本中的帧数	22

4.网络结构的设置

图3是本发明使用的深度残差网络的示意图，网络结构借鉴了He等人2018年发表在Interspeech上的论文Joint Localization and Classification of Multiple SoundSources Using a Multi-task Neural Network；网络其中每一层都是卷积层。卷积层1和卷积层2的卷积核在时间维度上为1，因此这两层卷积只在频率维度上进行，抽取各频点处所蕴含的有助于DOA估计的信息。卷积层1在频率维度上对重要的频点做初步筛选，紧接着卷积层2在卷积层1的基础上继续沿频率维度进行信息整合，得到高维空间中的某种特征表示，这种表示保留并加强了有助于定位的频点处的信息，去掉了冗余信息。卷积核步长大于1，在一定程度上起到降维的作用。图3中虚线框的部分是串行连接的三个残差模块(图中只画出一个)，前两个残差模块的输出作为下一个残差模块的输入，第三个残差模块的输出给卷积层3。残差连接的方式在加深网络容量，提升网络的信息表示能力的同时，不会引入梯度消失和梯度爆炸问题。每经过一个残差模块，特征都被抽象成更高层次的表示。卷积层3的卷积核大小为1×1，共360个，从而将数据的通道数映射到360，代表水平面上的每个方向。此后，“交换维度”操作代表将数据的频率维度和通道维度互换，因此卷积层4和卷积层5这两层卷积是沿着时间-方向所构成的平面进行卷积处理的。卷积层4为1×1卷积，进一步扩充网络的信息容量；卷积层5对不同帧的信息进行整合。表5以(输入通道数，输出通道数，(卷积核大小)，(卷积步长)，(padding大小))的格式列出了各层卷积的参数：

表5卷积层参数

每一层卷积层后面都存在着batch normalization层和ReLu激活函数。

5.模型的训练和测试

模型训练时采用均方误差(Mean Square Error,MSE)作为损失函数。神经网络的输出向量p′＝(p′₁,p′₂,…p′₃₆₀)，p′_i代表估计的第i个方向存在声源或反射声的概率。令p＝(p₁,p₂,…,p₃₆₀)为代表声源真实方位的似然值向量，其中p_i使用高斯函数进行似然编码：

其中ψ是声源和早期反射声对应的真实方位角的集合，σ是高斯分布的标准差,d(·,·)代表水平方位角之间的距离。由公式(1)可知，如果角度

恰好是声源或某早期反射声的方位

则

否则，

离某个

(无论哪个)越近，p_i就越接近于1.损失函数Loss为：

测试阶段，神经网络输出包含每个方向的概率向量p′后，需要对其进行峰值检测以得到直达声和早期反射声方位的估计，峰值对应的角度就是估计出的直达声和早期反射声的位置。

峰值检测过程可以描述为：

其中σ_n控制峰值检测的局部角度范围大小,

中包含了神经网络最后预测出的方位角的结果。

模型采用Pytorch深度学习框架训练，采用mini-batch梯度下降的策略共训练30个epoch，batch size的大小为128，采用的优化器为Adam，学习率为0.001，L2正则化的权重为0.0001。网络在训练过程中会见到不同房间中、不同信噪比的样本，从而避免让网络过于依赖某一特定环境，发生过拟合的现象。训练完成后，模型将会分别在测试集中的不同信噪比的样本上进行测试，以检测模型在不同环境中的泛化能力。

6.评价指标与结果

下面将三种早期反射声定位的方法进行对比，从而证明本文所提出的方法的有效性：

HOANet:本发明提出的方法

STFTNet:除了直接使用信号的STFT谱作为输入之外，与HOANet相同

EBMVDR：在特征波束域上做MVDR波束形成

测试时，采用准确率(Prec.)和召回率(Rec.)作为评价指标，二者定义如下：

其中N_correct,N_predict,N_true分别表示网络预测出的正确峰值个数，网络预测的峰值总个数，真实的峰值总个数。测试时分别在不同信噪比的样本下进行，以检验系统的抗噪性能。图4和图5展示了不同信噪比下各方法的准确率和召回率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种室内早期反射声定位方法，其步骤包括：

3)对每一所述阵列信号进行短时傅里叶变换，并取结果的J个时频点；然后计算每个所选时频点的连续N阶HOA系数，将M通道的阵列信号转换为(N+1)²通道的阵列信号；

4)将步骤3)处理所得每一(N+1)²通道的阵列信号的实部和虚部分开作为单独的通道拼接，得到一2(N+1)²通道的阵列信号；然后将连续K帧打包，形成一2(N+1)²×K×J维度的样本；

6)对于一目标房间中的声源，将该目标房间的冲击响应和对应的2(N+1)²×K×J维度阵列信号输入训练后的神经网络，定位出该目标房间中的声源位置。

2.如权利要求1所述的方法，其特征在于，生成房间的冲激响应的方法为：

13)根据步骤12)计算得到的各镜像源的位置，计算出每一镜像源到麦克风阵列中心的距离s，进而计算镜像源-麦克风阵列中心-麦克风三点连线所形成的夹角θ，然后计算得到(s,θ)处的镜像源对应的冲激响应；将各镜像源的冲击响应叠加得到当前房间的冲激响应。

3.如权利要求1或2所述的方法，其特征在于，步骤2)之后，随机在多个设定信噪比中选择一个信噪比，并依据所选信噪比为所述阵列信号添加不相关的高斯白噪声，使得所述数据集中各设定信噪比对应的样本数量均匀。

4.如权利要求1所述的方法，其特征在于，步骤3)中，首先计算所述阵列信号的512点短时傅里叶变换，并取结果的255个频点；然后计算每个时频点的0～4阶HOA系数，得到25通道的阵列信号。

5.如权利要求1所述的方法，其特征在于，所述麦克风阵列为球麦克风阵列，所述声源处于麦克风球阵列的赤道面上。

6.如权利要求1所述的方法，其特征在于，所述神经网络为深度残差网络。

7.如权利要求6所述的方法，其特征在于，所述深度残差网络包括依次连接的第一卷积层、第二卷积层、若干残差模块、第三卷积层、交换维度模块、第四卷积层和第五卷积层；其中，第一卷积层用于对输入的样本在频率维度上抽取各频点所蕴含的对DOA估计有贡献的信息；第二卷积层用于对第一卷积层处理得到的数据在频率维度进行信息整合，得到高维空间中的特征表示并输入到残差模块；所述残差模块将输入特征抽象成更高层次的表示后输入第三卷积层；第三卷积层用于将输入数据的通道数映射到水平面上的每个方向；所述交换维度模块用于将数据的频率维度和通道维度互换；第四卷积层、第五卷积层沿着时间-方向所构成的平面对输入数据进行卷积计算。

8.如权利要求7所述的方法，其特征在于，所述残差模块包括串行连接的第一1×1卷积层、3×3卷积层和第二1×1卷积层；每一层卷积层后设有batch normalization层和ReLu激活函数。

9.如权利要求1所述的方法，其特征在于，训练时采用均方误差作为损失函数

10.一种基于深度残差网络和HOA系数的室内早期反射声定位系统，其特征在于，包括数据集生成模块、样本信号生成模块、训练模块和定位模块；其中，

所述样本信号生成模块，用于对于所述数据集中每一冲激响应，将其与声源信号进行卷积计算，得到一M通道的阵列信号；然后对每一所述阵列信号进行短时傅里叶变换，并取结果的J个时频点，并计算每个所选时频点的连续N阶HOA系数，将M通道的阵列信号转换为(N+1)²通道的阵列信号；然后将每一(N+1)²通道的阵列信号的实部和虚部分开作为单独的通道拼接，得到一2(N+1)²通道的阵列信号；然后将连续K帧打包，形成一2(N+1)²×K×J维度的样本；

所述定位模块，用于对于一目标房间中的声源，将该目标房间的冲击响应和对应的2(N+1)²×K×J维度阵列信号输入训练后的神经网络，定位出该目标房间中的声源位置。