CN116631438A

CN116631438A - 一种基于最小p范数的宽度学习及二次相关的声源定位方法

Info

Publication number: CN116631438A
Application number: CN202310485152.4A
Authority: CN
Inventors: 唐荣江; 张悦; 陆滔琪; 林波
Original assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Current assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-22

Abstract

本发明涉及声源定位技术领域，具体涉及一种基于最小p范数的宽度学习及二次相关的声源定位方法，通过采用并下载实验室噪声语音语料库中的音频，得到原始音频数据集；将原始音频数据集进行预处理，得到数据集；构建麦克风阵列基于数据集收集声源，得到测试集和训练集；将训练集和实验需求构建宽度学习系统网络模型，得到训练模型；将测试集代入训练后的训练模型，得到预测位置，解决了现有算法计算量大、其稳定性以及抗干扰能力不足，从而导致计算时间较长的问题。

Description

一种基于最小p范数的宽度学习及二次相关的声源定位方法

技术领域

本发明涉及声源定位技术领域，尤其涉及一种基于最小p范数的宽度学习及二次相关的声源定位方法。

背景技术

近几年来，随着科学技术和智能领域的不断发展与需求增加，声源定位技术被广泛应用，例如智能机器人领域和视频会议当中声源定位技术会使其变得更加智能化和人性化。

传统声源定位算法大体可分3类,基于到达时延估计(Time Difference ofArrival，TDOA)的声源定位算法、基于最大输出功率的可控波束形成声源定位算法和基于高分辨率谱估计的声源定位算法。在声源定位的应用中，基于到达时间差的方法是比较常用的，这个方法是根据估计出两个信号源的时延进而求出声源的位置，TDOA算法的复杂度低、实时性高、精度高、硬件成本低，进而被广泛的应用。时延估计作为TDOA声源定位的第一步是至关重要的，时延微小的误差都会导致定位结果的偏离。广义互相关时延估计算法(Generalized Cross-Correlation，GCC)是较为经典的时延估计方法GCC方法通过添加加权函数提高了语音信号中的有效成分，进而提高了时延估计精度。但是在信噪比进一步降低时，该算法的抗噪性能有限，所以选择利用二次相关算法来进一步有效抑制噪声的干扰，以提高抗噪性能。

科技的进步和更新，让越来越多的学者开始探索新的算法在声源定位中的应用。例如基于压缩感知的声源定位算法、基于机器学习的声源定位算法逐渐被提出，研究者将神经网络模型应用于移动机器人的声源定位，定位精度得到了一定的提高，但仍然存在计算量大、其稳定性以及抗干扰能力不足从而导致计算时间过长。

发明内容

本发明的目的在于提供一种基于最小p范数的宽度学习及二次相关的声源定位方法，旨在解决现有算法计算量大、其稳定性以及抗干扰能力不足，从而导致计算时间较长的问题。

为实现上述目的，本发明提供了一种基于最小p范数的宽度学习及二次相关的声源定位方法，包括以下步骤：

采用并下载实验室噪声语音语料库中的音频，得到原始音频数据集；

将所述原始音频数据集进行预处理，得到数据集；

构建麦克风阵列基于所述数据集收集声源，得到测试集和训练集；

将所述训练集和实验需求构建宽度学习系统网络模型，得到训练模型；

将所述测试集代入训练后的训练模型，得到预测位置。

其中，所述采用并下载实验室噪声语音语料库中的音频，得到原始音频数据集，包括：

通过所述实验室噪声语音语料库下载30个IEEE句子，得到原始音频数据集；

其中，所述将所述原始音频数据集进行预处理，得到数据集，包括：

将所述原始音频数据集进行滤波、分帧、加窗、语音活动检测的预处理，得到数据集。

其中，所述构建麦克风阵列基于所述数据集收集声源，得到测试集和训练集，包括：

构建麦克风阵列；

将所述数据集的音频信号设置在指定位置，且声源与所述麦克风阵列设定为同一高度；并设定不同的信噪比，将同一信噪比下的所述音频信号分别放置于设定的位置上；

通过模拟所述麦克风阵列对所述音频信号进行接收和采集，得到测试集和训练集。

其中，所述将所述训练集和实验需求构建宽度学习系统网络模型，得到训练模型，包括：

将选取的基准麦克风和其余麦克风接收到的音频信号分别进行自相关和广义互相关处理，得到相关函数；

然后再将所述相关函数进行二次广义互相关处理，得到二次广义互相关函数；

提取所述二次广义互相关函数中的浅层特征和深层特征，分别映射为宽度学习的特征结点和增强结点，共同作为神经网络的输入；

将所述训练集和实验需求构建基于最小p范数的宽度学习系统网络结构，得到网络模型；

将所述训练集输入到网络模型中，此时的模型具有最优的参数权重，并对真实声源的位置进行预测。

本发明的一种基于最小p范数的宽度学习及二次相关的声源定位方法，通过采用并下载实验室噪声语音语料库中的音频，得到原始音频数据集；将所述原始音频数据集进行预处理，得到数据集；构建麦克风阵列基于所述数据集收集声源，得到测试集和训练集；将所述训练集和实验需求构建宽度学习系统网络模型，得到训练模型；将所述测试集代入训练后的训练模型，得到预测位置，解决了现有算法计算量大、其稳定性以及抗干扰能力不足，从而导致计算时间较长的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法流程图。

图2是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法的流程示意图。

图3是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法的模型示意图。

图4是是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法的特征提取示意图。

图5是是本发明提供的一种基于最小p范数的宽度学习及二次相关的声源定位方法中的二次广义互相关示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图5，本发明提供一种基于最小p范数的宽度学习及二次相关的声源定位方法，包括以下步骤：

S1采用并下载实验室噪声语音语料库中的音频，得到原始音频数据集；

具体的，

通过所述实验室噪声语音语料库下载30个IEEE句子，得到原始音频数据集；所述噪声语音语料库中的语音数据为30个所述IEEE句子被不同信噪比下的八个不同的现实世界噪音所破坏；

所述八个不同的现实世界噪音取自AURORA数据库，其中有郊区火车噪音、嘟嘟声、汽车、展览厅、餐馆、街道、机场和火车站噪音；。

S2将所述原始音频数据集进行预处理，得到数据集；

具体的，

S3构建麦克风阵列基于所述数据集收集声源，得到测试集和训练集；

具体的，

S31将所述数据集的音频信号设置在指定位置，且声源与所述麦克风阵列设定为同一高度，因此，声源的俯仰角为0°，方位角的范围选取范围为[0°-180°]，并设定不同的信噪比，将同一信噪比下的所述音频信号分别放置于设定的位置上。

S32通过模拟所述麦克风阵列对所述音频信号进行接收和采集，得到测试集和训练集。

S4将所述训练集和实验需求构建宽度学习系统网络模型，得到训练模型；

S41将选取的基准麦克风和其余麦克风接收到的音频信号分别进行自相关和广义互相关处理，得到相关函数；

具体的，

对麦克风阵列接受的语音信号做改进后的广义互相关的具体计算方式为：

基于时延估计的声源定位算法主要分为两个步骤：第一步，估计声源信号到达各个麦克风之间的时间差；第二步，利用上一步所得到的时间差和声源与麦克风阵列之间的几何关系来估计声源位置；

假设S为声源；阵元分别为M_i和M_j；对于麦克风阵列中阵元M_i和M_i接接收到的信号模型为

其中，s(t)表示声源信号；α_iα_j表示衰减因子；τ表示时间延迟；n_i(t)、n_j(t)表示环境噪声；假设声源信号s(t)和噪声n(t)，噪声n_i(t)和噪声n_j(t)之间互不相关

信号x_i(t)和n_j(t)的互相关函数表示为

Rij＝E[x_i(t)x_j(t-τ)] (2)

将式(1)代入式(2)得

R_ij＝α_iα_jE[s(t-τ_i)s(t-τ_i-τ)]+α_iE[s(t-τ_i)n(t-τ)]+α_jE[s(t-τ_i-τ)n_j(t)]+E[n_i(t)n_j(t-τ)] (3)

因为假设声源信号s(t)和噪声n(t)不相关，式(3)可以简化为

R_ij＝α_iα_jR_ij(τ-τ_ij)+R_n1n2(τ) (4)

又由于噪声n_i(t)和噪声n_j(t)之间互不相关，式(4)可以简化为

R_ij＝α_iα_jR_ij(τ-τ_ij) (5)

在上式中，τ_ij＝τ_i-τ_j；当τ＝τ_ij时，R_ij取最大值，此时对应的τ为麦克风的延迟时间。然而当噪声不相互独立，或者信噪比较低时，互相关函数R_ij的峰值将不明显，此时估计出来的时差将会产生明显的误差，从而得不到正确的估计值，影响定位的精确性。因此，为了减少峰值的弱化对后续计算造成的影响，对R_ij进行加权，将式(5)转换为功率谱

其中，表示加权函数；若/>采用相位变换的加权函数(PHAT)由上式可得

其中，X_i(ω)是麦克风M_i采集到的信号x_i(t)的快速傅里叶变换(FFT)；/>表示麦克风M_j采集到信号x_j(t)的FFT的复数共轭。

二次相关算法是基本互相关算法的改进，该算法第一步先对信号分别进行自相关和互相关运算，然后把得到的自相关和互相关函数再进行相关运算，以此来提高信号的信噪比。原理如下：

在对互功率谱函数进行加权处理之前，先对接收信号x_i(t)和x_j(t)做一次二次相关，然后再将功率谱函数做傅里叶逆变换，得到广义互相关函数，再进行峰值检测，从而得到时差的准确估计。

S42然后再将所述相关函数进行二次广义互相关处理，得到二次广义互相关函数；

S43提取所述二次广义互相关函数中的浅层特征和深层特征，分别映射为宽度学习的特征结点和增强结点，共同作为神经网络的输入；

具体的，

所述神经网络的设计思路为：首先，利用提取到的二次广义互相关特征作为网络的“特征结点”，特征结点再一次映射为“增强结点”。其次，将所有映射的特征和增强结点共同作为网络的输入一起连接到输出端，利用岭回归的方式计算出模型的连接权重W。

S44将所述训练集和实验需求构建基于最小p范数的宽度学习系统网络结构，得到网络模型；

具体的，

在原始的宽度学习系统中，利用正则化的最小二乘法求解最优的W，虽然会极大地方便求解的过程，但是也降低了宽度学习系统的鲁棒性。这是因为正则化的最小二乘法采用误差矢量的2范数构造损失函数，在实验中很难抑制非高斯噪声污染或异常值带来的负面影响，因此本发明采用误差矢量p范数来构造损失函数，以增强系统的鲁棒性。具体如下：对于具有采用N个样本的最小p范数的宽度学习系统模型，其输出为误差估计描述为

同时，待求解的权重为一个L×1的矢量，表示为w；a_i表示第i个样本的误差，那么有

其中，y_i是第i个样本的实际位置；是矩阵B中的第i行。根据p范数的定义，那么，误差矢量p范数可以表示为

那么，优化目标函数可以表示为

令求梯度，可得

其中，为加权对角矩阵,令/>求得W为

当p＝2,Λ_wB＝I时，基于最小p范数的宽度学习系统模型就退化为宽度学习系统模型，可以发现该模型是通过p值来抑制异常值的影响，进而提高模型的鲁棒性，在不同的噪声环境下，能够实现对不确定数据的建模任务。当|p-2|<1时，可以将误差过大的值进行限制，减小异常值对模型的影响。固定点迭代时一种通过迭代方程求解隐式方程的手段，本发明采用固定点迭代来更新W，令

那么W的更新过程为

W(t)＝ψ(W(t-1)) (15)

其中，W(t)表示为第t次迭代过程，在预测任务中，随机产生W(0)，设定的迭代次数T为终止条件，经过T次迭代后得到W。

S45将所述测试集输入到网络模型中，此时的模型具有最优的参数权重，并对真实声源的位置进行预测。

S5将所述测试集代入训练后的训练模型，得到预测位置。

以上所揭露的仅为本发明一种基于最小p范数的宽度学习及二次相关的声源定位方法较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于最小p范数的宽度学习及二次相关的声源定位方法，其特征在于，

将所述原始音频数据集进行预处理，得到数据集；

将所述测试集代入训练后的训练模型，得到预测位置。

2.如权利要求1所述的基于最小p范数的宽度学习及二次相关的声源定位方法，其特征在于，

所述采用并下载实验室噪声语音语料库中的音频，得到原始音频数据集，包括：

通过所述实验室噪声语音语料库下载30个IEEE句子，得到原始音频数据集。

3.如权利要求2所述的基于最小p范数的宽度学习及二次相关的声源定位方法，其特征在于，

所述将所述原始音频数据集进行预处理，得到数据集，包括：

4.如权利要求3所述的基于最小p范数的宽度学习及二次相关的声源定位方法，其特征在于，

所述构建麦克风阵列基于所述数据集收集声源，得到测试集和训练集，包括：

构建麦克风阵列；

5.如权利要求所述的基于最小p范数的宽度学习及二次相关的声源定位方法，其特征在于，

所述将所述训练集和实验需求构建宽度学习系统网络模型，得到训练模型，包括：

将所述测试集输入到网络模型中，此时的模型具有最优的参数权重，并对真实声源的位置进行预测。