CN113111765A

CN113111765A - 一种基于深度学习的多语音源计数和定位方法

Info

Publication number: CN113111765A
Application number: CN202110379637.6A
Authority: CN
Inventors: 潘翔; 张敏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-13
Anticipated expiration: 2041-04-08
Also published as: CN113111765B

Abstract

本发明公开了一种基于深度学习的多语音源计数和定位方法。包括：根据像源法的房间冲激响应模型构造麦克风阵列接收的多语音源信号；对麦克风阵列信号进行特征提取，提取相位变换加权的广义互相关系数和对数梅尔谱；神经网络训练提取到的输入特征，对声源个数估计和到达角估计做多任务学习的训练；根据声源个数的估计值，对到达角估计预测值进行峰值检测，峰值出现的位置即为多个语音源的到达角估计值。本发明能在未知声源个数的前提下对含有多个语音源的信号进行声源计数和到达角估计，能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能，对混响的环境具有一定的鲁棒性。

Description

一种基于深度学习的多语音源计数和定位方法

技术领域

本发明涉及声源定位技术领域，尤其涉及一种基于深度学习的未知声源个数的多语音源计数和定位方法。

背景技术

准确估计语音源的方位角是许多应用中的关键要素。如在电话会议中，利用说话人的位置知识来操控摄像机的转动，或通过波束形成实现对目标信号的增强，声源事件检测和跟踪，以及未知环境中的机器人移动等应用。在实际场景中，除了环境噪声和混响外，往往可能含有多个说话人，由于多个声源之间的混叠效应使得多语音源的定位更加困难。多数传统的高分辨率定位算法都是针对窄带信号提出来的，而语音信号是宽带非平稳信号且能量主要集中在低频成分，这些传统算法在小尺度阵列上存在对语音信号定位分辨率不足的问题，在大混响和低信噪比时定位性能也显著下降。基于深度学习的方法，多数将多语音源问题当做多标签分类问题求解，通过神经网络得到声源出现在所划分的类别中的后验概率，最大值出现的类别即为声源到达方位。定位精度与类别划分的精度相关，而且需要知道声源数目，在实际应用中受到很多限制。

发明内容

针对现有技术存在的问题，本发明所要解决的问题是，提供一种基于深度学习的小尺度麦克风阵列定位算法，实现对多个语音源的计数和到达角估计。

本发明所采用的技术方案是：一种基于深度学习的多语音源计数和定位方法，该方法包括以下步骤：

步骤1：构造室内混响环境下含有多个语音源的训练数据，即根据房间冲激响应模型构造麦克风阵列接收到的声源信号；

步骤2：提取语音信号特征，即提取相位变换加权的广义互相关系数和对数梅尔谱；

步骤3：训练神经网络，对声源个数估计和到达角(direction-of-arrival,DOA)估计做多任务学习训练；

步骤4：输出声源个数估计值和DOA估计值。

进一步地，所述步骤1构造室内混响环境下含有多个语音源的训练数据，具体步骤如下：

麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积：

其中X＝[x₁,x₂,...,x_m,...,x_M]表示M个通道的麦克风阵列接收到的声源信号矩阵，K表示声源个数，s_i表示第i个语音信号，

表示卷积操作，

表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应，

根据像源法计算得到，N＝[n₁,n₂,...,n_M]表示环境噪声。

进一步地，所述步骤2具体包括以下子步骤：

步骤21，对信号X进行短时傅里叶变换得到Y，计算任意两个麦克风信号Y_i,Y_j之间的互功率谱，引入相位变换加权函数，对互功率谱进行调整，再进行逆傅里叶变换得到相位变换加权的广义互相关系数(generalized correlation coefficient with phasetransform,GCC-PHAT)，计算公式如下所示：

其中R_i,j(τ)表示第i个和第j个麦克风之间的广义互相关系数，Y_i(ω)表示第i个麦克风接收到信号的频谱，(·)^*表示共轭操作；

步骤22，用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱，做对数运算得到对数梅尔谱：

其中f代表梅尔滤波器索引，Mel_f(k)代表第f个梅尔滤波器，Ω_f代表第f个梅尔滤波器的频率范围。

进一步地，所述步骤3具体如下：

将提取的特征输入到深度神经网络进行训练。输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块，将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元(Gated Recurrent Unit,GRU)，最后分为两路输出。一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值

其中全连接层的神经元个数为N₁；另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值

其中全连接层的神经元个数为N₂。

声源个数估计问题作为多分类模型求解，每个个数取值作为一个类别，采用交叉熵作为损失函数，计算公式如下：

其中p(x_n)表示属于第n个类别的真实概率，

表示预测属于第n个类别的概率。

DOA估计问题作为回归模型求解，使用高斯函数设计DOA标签，计算公式如下：

其中y(i)代表θ_i角度的标签值，K代表声源个数，

代表第j个声源的真实角度值，θ_i代表麦克风阵列可以有效估计的到达角范围内的任意角度值，σ是控制高斯函数的参数。

DOA估计问题采用均方误差作为损失函数，计算公式如下：

其中

表示角度值为θ_n时的预测值；

声源个数估计和DOA估计以多任务学习模型的方式进行训练，整个深度神经网络模型的损失函数计算公式如下：

J＝αJ₁+J₂

其中α是一个常量系数，范围大小0＜α≤1。在最小化损失函数的准则下进行迭代训练，最终得到训练好的网络模型。

进一步地，所述步骤4具体如下：

对麦克风阵列接收到的声源信号进行特征提取，将提取的特征输入到步骤3训练得到的网络模型，得到声源个数预测值

和DOA预测值

的最大值对应的类别即为声源个数估计值

对

进行峰值检测，前

个最大峰值出现的位置即为DOA估计值。

本发明的有益效果是：本发明提出的一种基于深度学习的多语音源计数和定位方法，通过对麦克风阵列信号提取相位变换的广义互相关系数和对数梅尔谱，将其作为输入特征对神经网络进行训练，对声源个数估计和到达角估计做多任务学习训练，能在未知声源个数的情况下，对含有多个语音源的信号进行到达角估计。与传统的定位算法和其他深度学习的方法相比，能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能，对混响的环境具有一定的鲁棒性。

附图说明

图1是本发明具体实施例中基于深度学习的多语音源计数和定位方法流程图；

图2是本发明具体实施例中多语音源计数和定位的网络结构图；

图3是本发明具体实施例中多语音源定位测试结果图。

具体实施方式

下面结合实施例和附图对本发明提出的一种基于深度学习的多语音源计数和定位方法做出详细说明。

图1给出了本发明的总体流程图。在神经网络训练阶段，首先根据像源法构造房间冲激响应模型来模拟麦克风阵列接收到的声源信号，然后对麦克风阵列接收信号进行特征提取，将提取的信号特征输入到神经网络进行训练，网络模型为声源计数和到达角估计的多任务模型，多次迭代优化后得到训练好的网络模型。在推理测试阶段，对麦克风阵列接收到的声源信号进行特征提取后，输入到训练阶段得到的最优网络模型中，得到声源数目的估计值

最后对神经网络的DOA估计输出值进行峰值检测，前

个峰值出现的位置即为声源的DOA估计值。

本发明的技术方法具体实施方式如下：

步骤1，根据像源法的房间冲激响应模型模拟麦克风阵列接收到的声源信号，构造室内混响环境下含有多个语音源的训练数据。

式中X＝[x₁,x₂,...,x_m,...,x_M]表示M个通道的麦克风阵列接收到的声源信号矩阵，K表示声源个数，s_i表示第i个语音信号，

表示卷积操作，

根据像源法计算得到，N＝[n₁,n₂,...,n_M]表示环境噪声。

步骤2，对步骤1中得到的声源信号X进行特征提取，包括以下子步骤：

步骤21，对信号X进行短时傅里叶变换得到Y，计算任意两个麦克风信号Y_i,Y_j之间的互功率谱，引入相位变换加权函数对互功率谱进行调整，再进行逆傅里叶变换得到GCC-PHAT，计算公式如下所示：

其中R_i,j(τ)表示第i个和第j个麦克风之间的广义互相关系数，Y_i(ω)表示第i个麦克风接收到信号的频谱，(·)^*表示共轭操作，对于M个通道的麦克风阵列，一共计算M(M-1)/2组GCC-PHAT系数；

步骤3，将提取的特征输入到神经网络进行训练，神经网络结构如图2所示，包括以下步骤：

输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块，卷积神经网络CNNblock1和CNNblock2均由4层的卷积层组成，每个卷积层后面跟着最大值池化层和Batch Normalization层。将经过CNNblock1和CNNblock2模块后的特征拼接起来成为新特征再输入到GRU，GRU隐藏层神经元个数设置为512。最后分为两路输出，全连接层FC1的神经元个数设置为N₁，通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值

全连接层FC2的神经元个数设置为N₂，通过全连接层FC2和激活函数Sigmoid后得到DOA预测值

声源个数估计问题作为多分类模型求解，采用交叉熵作为损失函数，计算公式如下：

其中p(x_n)表示第n个类别的真实概率，

表示预测属于第n个类别的概率。

其中y(i)代表θ_i角度的标签值，K代表声源个数，

DOA估计问题采用均方误差作为损失函数，计算公式如下：

其中

表示角度值为θ_n时的预测值；

J＝αJ₁+J₂

步骤4，对麦克风阵列采集到的声源信号进行声源计数和定位。包括以下步骤：

对声源信号进行特征提取，将提取的特征输入到步骤3训练得到的网络模型，得到声源个数预测值

和DOA预测值

的最大值对应的类别即为声源个数估计值

对

进行峰值检测，前

个最大峰值出现的位置即为DOA估计值。

实施例

本实例将上述的多语音源计数和定位方法应用于一个2×2的矩形阵，矩形阵的阵间距均为3.8cm。设置5个不同大小的房间生成3600条不同的房间冲激响应，干净语音数据来源于Librispeech数据库，信噪比控制在10dB-20dB之间。信号采样频率16kHz，按照64ms的帧长和32ms帧移进行短时傅里叶变换。选择连续30帧的特征作为输入特征，广义互相关系数的τ取值64，梅尔滤波器个数取值为96，则GCC-PHAT的特征大小为6×30×64，LogMel的特征大小为4×30×96。声源个数估计的输出维度N₁取值为4，DOA估计的输出维度N₂取值为360，对神经网络进行迭代训练。

在房间大小为6×8×3.5m³的室内用上述的2×2的矩形阵采集到声源信号，用前文中训练好的模型对采集到的数据进行测试，如图3所示为一个含有2个语音源的混合信号的DOA估计结果。本发明所提出的方法，在此测试数据集上平均角度误差为8.6°，声源计数准确率为95.4％

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。