CN116559778A

CN116559778A - 一种基于深度学习的车辆鸣笛定位方法及系统

Info

Publication number: CN116559778A
Application number: CN202310840663.3A
Authority: CN
Inventors: 孔绎杨; 谷林溪; 吴�灿
Original assignee: Haina Kede Hubei Technology Co ltd
Current assignee: Haina Kede Hubei Technology Co ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-08-08
Anticipated expiration: 2043-07-11
Also published as: CN116559778B

Abstract

本发明提供一种基于深度学习的车辆鸣笛定位方法及系统，包括以下步骤：S1：在路口设置麦克风阵列，通过麦克风阵列获取声音信号；S2：构建声源识别网络，通过声源识别网络对声音信号进行鸣笛识别，获得鸣笛声源；S3：通过到达时间差定位法对鸣笛声源进行定位，获得鸣笛声源的空间位置。本发明创新性的提出了一种用于鸣笛定位的深度学习声源识别网络模型，该网络模型包括特征提取模块、注意力模块和全连接模块；通过特征提取模块和注意力模块对输入的四通道MFCC特征进行多路特征的提取和融合，学习出对声源识别任务最重要的信息，有效提升了模型的识别效率和准确度。

Description

一种基于深度学习的车辆鸣笛定位方法及系统

技术领域

本发明涉及声信号分类识别领域，尤其涉及一种基于深度学习的车辆鸣笛定位方法及系统。

背景技术

随着对声学研究的深入，研究人员发现可以通过声音识别并对声源定位来实现对违法鸣笛的抓拍，近年来陆续在违法鸣笛抓拍上取得了一些进步，也有一些应用于实际道路上。对于违法鸣笛抓拍系统来说，都是通过麦克风对环境声音进行识别，然后再通过麦克风阵列对声源进行定位，从而识别出违法鸣笛的车辆。

常用的声源定位技术有三种：基于到达时间差、基于可控波束形成和基于高分辨率谱估计。基于到达时间差的方法有两步，首先分析麦克风接收到的信号的时间，互相关求出差值，然后根据麦克风阵型，几何空间变换推导出声源位置。此方法计算量小，运算速度快，缺点是受噪声影响大以及多声源时会降低性能。可控波束形成是对阵列的输出信号加权求和形成波束，再通过不同的加权引导波束，此时指向的输出功率最大的点即为声源的位置。此方法也已经广泛应用于声源定位领域，但是由于需要搜索全局，计算量大，实时性不好，实际使用中通常用一些迭代方法来减小运算量。高分辨率谱估计方法主要包括多重信号分类（MUSIC）、自回归模型（AR）、最小方差谱估计（MV）等算法，其中以MUSIC算法为代表，其利用了信号子空间和噪声子空间的正交性，构造空间谱函数，然后搜索谱峰，得到DOA。在实际中运用时，若想达到较理想的精度，计算量会很大，并且需要较多的初值条件。还有此方法对环境噪声敏感，抗噪能力差，因此现代声源定位系统中采用高分辨率谱估计方法的较少。

在传统声源定位算法中，也有许多改进的方法，可以在复杂环境内提高一定的抗干扰能力。但在混响极其严重，或者信噪比很小的情况下，传统的声源定位方法效果有待提升，尤其是当麦克风阵列不能获得声源信号的直达声时，系统的定位能力会非常差。并且，目前多数CNN对输入进行特征提取时,对输入信息进行平均并没有突出关键信息。因此，CNN在面对复杂问题时存在速率慢、精确度不高的缺点，除此以外，受到长时信息存储的限制，网络往往不能有效处理长时间序列信息。

发明内容

为解决上述技术问题，本发明提供一种基于深度学习的车辆鸣笛定位方法，包括以下步骤：

S1：在路口设置麦克风阵列，通过麦克风阵列获取路口的声音信号；

S2：构建声源识别网络，通过声源识别网络对声音信号进行鸣笛识别，获得鸣笛声源；

S3：通过到达时间差定位法对鸣笛声源进行定位，获得鸣笛声源的空间位置。

优选的，步骤S2具体为：

S21：将声音信号进行预处理，获得四通道MFCC特征；

S22：构建声源识别网络，声源识别网络包括：特征提取模块、注意力模块和全连接模块；

S23：将四通道MFCC特征输入特征提取模块中进行特征提取，获得四通道特征图；

S24：将四通道特征图输入注意力模块进行特征加权，获得加权后的特征图；

S25：将加权后的特征图输入至全连接模块进行分类识别，获得鸣笛声源。

优选的，特征提取模块、注意力模块和全连接模块依次连接；

特征提取模块包括：第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道；

第一特征提取通道包括：第一卷积层、第一最大池化层、第二卷积层和第二最大池化层，第一卷积层、第一最大池化层、第二卷积层和第二最大池化层依次连接；

第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道的结构相同；

注意力模块包括：通道注意力模块、空间注意力模块，通道注意力模块与空间注意力模块连接；

通道注意力模块包括：全局最大池化、全局平均池化、共享全连接层和第一sigmoid层，全局最大池化、全局平均池化、共享全连接层和第一sigmoid层依次连接；

空间注意力模块包括：通道堆叠、7*7卷积层和第二sigmoid层，通道堆叠、1*1卷积层和第二sigmoid层依次连接。

优选的，步骤S23具体为：

S231：通过特征提取通道提取MFCC特征的特征图，计算公式为：

其中，i为通道的编号，i=1,2,3,4；x_i ¹为第i个MFCC特征，Conv₁为第一卷积层，MaxPool₁为第一最大池化层，Conv₂为第二卷积层，MaxPool₂为第二最大池化层；x_i ²为第i特征提取通道输出的特征图；

S232：将四个特征图进行拼接，获得四通道特征图，计算公式为：

其中，[;]为向量拼接符号，x为四个特征图在通道维度上进行堆叠所得到的四通道特征图。

优选的，注意力模块的计算公式具体为：

其中，x为四通道特征图，σ为Sigmoid激活函数，Conv_7×7为卷积核尺寸为7×7的卷积操作，[;]为向量拼接符号，x_Avg表示将x进行平均池化操作，x_Max表示将x进行最大池化操作，W_MLP为共享全连接层的权重，F(x)为加权后的特征图。

一种基于深度学习的车辆鸣笛定位系统，包括以下模块：

声音信号获取模块，用于在路口设置麦克风阵列，通过麦克风阵列获取路口的声音信号；

鸣笛声源识别模块，用于构建声源识别网络，通过声源识别网络对声音信号进行鸣笛识别，获得鸣笛声源；

鸣笛声源定位模块，用于通过到达时间差定位法对鸣笛声源进行定位，获得鸣笛声源的空间位置。

本发明具有以下有益效果：

本发明创新性的提出了一种用于鸣笛定位的深度学习声源识别网络模型，该网络模型包括特征提取模块、注意力模块和全连接模块；通过特征提取模块和注意力模块对输入的四通道MFCC特征进行多路特征的提取和融合，学习出对声源识别任务最重要的信息，有效提升了模型的识别效率和准确度；这种轻巧的模型结构也有助于在硬件设备上的部署，克服了传统模型参数多、较难应用的缺点；后续通过该模型可以精确识别目标鸣笛声源，从而结合时延估计定位方法提高对鸣笛声音定位的准确率。

附图说明

图1为本发明实施例方法流程图；

图2为声源识别网络结构图；

图3为到达时间差定位法示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明提供一种基于深度学习的车辆鸣笛定位方法，包括以下步骤：

进一步的，步骤S2具体为：

S21：将声音信号进行预处理，获得四通道MFCC特征；

具体的，在路口环境下，麦克风所采集的鸣笛声音受到噪声的影响较大，需要通过预处理提高信噪比，提取出的四通道MFCC特征为梅尔频谱（MFCC）特征，梅尔频谱是根据人的听觉实验的结果来分析声音的频谱，MFCC可以模拟人耳的听觉特性，提取信号的MFCC特征可以较好的对不同的信号进行分类识别；

预处理的过程包括：预加重、分帧、加窗、快速傅里叶变换（FFT）、梅尔滤波器处理、对数运算、离散余弦变换（DCT）等数据预处理的过程；

分帧：为了便于进行研究声音信号，可以将一段声音分为多个帧，分帧之后的信号可以认为是平稳信号。为了使相邻两帧的交界处不至于突兀，还引入了帧移；本发明中的帧长取2048，帧移取512；当声音的采样率为 44.1Khz时，每帧的持续时长约为0.046秒；

加窗：汉宁窗的形状类似于正弦函数在[0,π]之间的形状，在下一步对信号进行傅里叶变换时，假设一个窗内的信号代表一个周期信号，当信号乘以窗函数后，数据便可当作周期信号来分析；

快速傅里叶变换：FFT可以将分帧加窗后的信号变换到频域内，因为在时域范围内的变换难以看出声音信号特征，经过FFT处理后可以得到更丰富的声音信号的信息；

梅尔滤波器处理：经过FFT获得能量谱以后，接下来需要构造一个梅尔滤波器组，并将能量谱与之进行点积运算，目的是将能量谱转换为更接近人耳听觉特性的梅尔频谱；

对数运算：人耳对于声音响度的增加非常敏感，稍有变化就可以进行分辨；当声音的响度增强到一定程度以后，即使再有很大的变化，人耳听起来变化开始变的逐渐不明显了，这种人耳对声音的听觉特性就是对数特性；取对数的目的就是让声音信号更加符合人耳听觉的“对数式”特性；

离散余弦变换：DCT可以改变数据的分布，并区分出多余的数据。在进行变换后，大部分的信号数据都会集中在低频区域，因此只需要取变换后的前面一部分数据即可；

进一步的，参考图2，特征提取模块、注意力模块和全连接模块依次连接；

具体的，声源识别网络中加入注意力模块旨在针对特征图的不同部分分配不同的注意力权重，并根据注意力权重分布模型对关键信息的学习侧重，从而在一定程度上提高模型的性能，降低了计算量；

通道注意力模块旨在判别不同通道的重要性，依据具体任务要求自主深度学习，赋予特征图相应的通道注意力系数，实现加强关注重要特征、降低非重要特征干扰的效果；空间注意力模块旨在增强与任务相关的空间区域的特征表达，赋予特征图相应的空间注意力系数，实现空间区域信息的自适应选择；

将特征图依次赋予通道注意力系数和空间注意力系数加权后输出加权后的特征图。

进一步的，步骤S23具体为：

进一步的，注意力模块的计算公式具体为：

进一步的，步骤S3具体为：

参考图3，对于路口车辆鸣笛声音声源定位来说，假定车辆喇叭的安装位置为同一高度，可以得知麦克风阵列距离地面的高度、麦克风阵列相对于水平面所倾斜的角度；针对这些已知条件，只需求出鸣笛声源与麦克风阵列的方位角和俯仰角/>，再根据空间几何变换，即可求得鸣笛声源的位置；

声源相对于平面的方位角为，俯仰角为/>，选取麦克风阵列中的四个麦克风作为阵元，四个阵元连线中心点为原点，声源到原点的距离为d，阵元到原点的距离为L，阵元到声源的距离为r_i，声源的直角坐标是S(x_s,y_s,z_s)，各麦克风的坐标为(x_i,y_i,z_i)，阵元i和j之间的时延为/>；设声速为c；i和j的取值为1至4；M1、M2、M3和M4为麦克风阵列中的四个麦克风；

根据图3中的几何关系，计算过程具体为：

其中可以认为：

整理方程组可以得出：

本发明提供一种基于深度学习的车辆鸣笛定位系统，包括以下模块：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的车辆鸣笛定位方法，其特征在于，包括以下步骤：

S3：通过到达时间差定位法对鸣笛声源进行定位，获得鸣笛声源的空间位置；

步骤S2具体为：

S21：将声音信号进行预处理，获得四通道MFCC特征；

2.根据权利要求1所述的基于深度学习的车辆鸣笛定位方法，其特征在于，特征提取模块、注意力模块和全连接模块依次连接；

3.根据权利要求2所述的基于深度学习的车辆鸣笛定位方法，其特征在于，步骤S23具体为：

4.根据权利要求2所述的基于深度学习的车辆鸣笛定位方法，其特征在于，注意力模块的计算公式具体为：

5.一种基于深度学习的车辆鸣笛定位系统，其特征在于，包括以下模块：

鸣笛声源定位模块，用于通过到达时间差定位法对鸣笛声源进行定位，获得鸣笛声源的空间位置；

鸣笛声源识别模块的工作流程具体为：

S21：将声音信号进行预处理，获得四通道MFCC特征；