CN116559778A - 一种基于深度学习的车辆鸣笛定位方法及系统 - Google Patents
一种基于深度学习的车辆鸣笛定位方法及系统 Download PDFInfo
- Publication number
- CN116559778A CN116559778A CN202310840663.3A CN202310840663A CN116559778A CN 116559778 A CN116559778 A CN 116559778A CN 202310840663 A CN202310840663 A CN 202310840663A CN 116559778 A CN116559778 A CN 116559778A
- Authority
- CN
- China
- Prior art keywords
- channel
- sound source
- module
- feature
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 230000005236 sound signal Effects 0.000 claims abstract description 25
- 238000011176 pooling Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 abstract description 9
- 238000001228 spectrum Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 5
- 238000009432 framing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种基于深度学习的车辆鸣笛定位方法及系统,包括以下步骤:S1:在路口设置麦克风阵列,通过麦克风阵列获取声音信号;S2:构建声源识别网络,通过声源识别网络对声音信号进行鸣笛识别,获得鸣笛声源;S3:通过到达时间差定位法对鸣笛声源进行定位,获得鸣笛声源的空间位置。本发明创新性的提出了一种用于鸣笛定位的深度学习声源识别网络模型,该网络模型包括特征提取模块、注意力模块和全连接模块;通过特征提取模块和注意力模块对输入的四通道MFCC特征进行多路特征的提取和融合,学习出对声源识别任务最重要的信息,有效提升了模型的识别效率和准确度。
Description
技术领域
本发明涉及声信号分类识别领域,尤其涉及一种基于深度学习的车辆鸣笛定位方法及系统。
背景技术
随着对声学研究的深入,研究人员发现可以通过声音识别并对声源定位来实现对违法鸣笛的抓拍,近年来陆续在违法鸣笛抓拍上取得了一些进步,也有一些应用于实际道路上。对于违法鸣笛抓拍系统来说,都是通过麦克风对环境声音进行识别,然后再通过麦克风阵列对声源进行定位,从而识别出违法鸣笛的车辆。
常用的声源定位技术有三种:基于到达时间差、基于可控波束形成和基于高分辨率谱估计。基于到达时间差的方法有两步,首先分析麦克风接收到的信号的时间,互相关求出差值,然后根据麦克风阵型,几何空间变换推导出声源位置。此方法计算量小,运算速度快,缺点是受噪声影响大以及多声源时会降低性能。可控波束形成是对阵列的输出信号加权求和形成波束,再通过不同的加权引导波束,此时指向的输出功率最大的点即为声源的位置。此方法也已经广泛应用于声源定位领域,但是由于需要搜索全局,计算量大,实时性不好,实际使用中通常用一些迭代方法来减小运算量。高分辨率谱估计方法主要包括多重信号分类(MUSIC)、自回归模型(AR)、最小方差谱估计(MV)等算法,其中以MUSIC算法为代表,其利用了信号子空间和噪声子空间的正交性,构造空间谱函数,然后搜索谱峰,得到DOA。在实际中运用时,若想达到较理想的精度,计算量会很大,并且需要较多的初值条件。还有此方法对环境噪声敏感,抗噪能力差,因此现代声源定位系统中采用高分辨率谱估计方法的较少。
在传统声源定位算法中,也有许多改进的方法,可以在复杂环境内提高一定的抗干扰能力。但在混响极其严重,或者信噪比很小的情况下,传统的声源定位方法效果有待提升,尤其是当麦克风阵列不能获得声源信号的直达声时,系统的定位能力会非常差。并且,目前多数CNN对输入进行特征提取时,对输入信息进行平均并没有突出关键信息。因此,CNN在面对复杂问题时存在速率慢、精确度不高的缺点,除此以外,受到长时信息存储的限制,网络往往不能有效处理长时间序列信息。
发明内容
为解决上述技术问题,本发明提供一种基于深度学习的车辆鸣笛定位方法,包括以下步骤:
S1:在路口设置麦克风阵列,通过麦克风阵列获取路口的声音信号;
S2:构建声源识别网络,通过声源识别网络对声音信号进行鸣笛识别,获得鸣笛声源;
S3:通过到达时间差定位法对鸣笛声源进行定位,获得鸣笛声源的空间位置。
优选的,步骤S2具体为:
S21:将声音信号进行预处理,获得四通道MFCC特征;
S22:构建声源识别网络,声源识别网络包括:特征提取模块、注意力模块和全连接模块;
S23:将四通道MFCC特征输入特征提取模块中进行特征提取,获得四通道特征图;
S24:将四通道特征图输入注意力模块进行特征加权,获得加权后的特征图;
S25:将加权后的特征图输入至全连接模块进行分类识别,获得鸣笛声源。
优选的,特征提取模块、注意力模块和全连接模块依次连接;
特征提取模块包括:第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道;
第一特征提取通道包括:第一卷积层、第一最大池化层、第二卷积层和第二最大池化层,第一卷积层、第一最大池化层、第二卷积层和第二最大池化层依次连接;
第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道的结构相同;
注意力模块包括:通道注意力模块、空间注意力模块,通道注意力模块与空间注意力模块连接;
通道注意力模块包括:全局最大池化、全局平均池化、共享全连接层和第一sigmoid层,全局最大池化、全局平均池化、共享全连接层和第一sigmoid层依次连接;
空间注意力模块包括:通道堆叠、7*7卷积层和第二sigmoid层,通道堆叠、1*1卷积层和第二sigmoid层依次连接。
优选的,步骤S23具体为:
S231:通过特征提取通道提取MFCC特征的特征图,计算公式为:
其中,i为通道的编号,i=1,2,3,4;xi 1为第i个MFCC特征,Conv1为第一卷积层,MaxPool1为第一最大池化层,Conv2为第二卷积层,MaxPool2为第二最大池化层;xi 2为第i特征提取通道输出的特征图;
S232:将四个特征图进行拼接,获得四通道特征图,计算公式为:
其中,[;]为向量拼接符号,x为四个特征图在通道维度上进行堆叠所得到的四通道特征图。
优选的,注意力模块的计算公式具体为:
其中,x为四通道特征图,σ为Sigmoid激活函数,Conv7×7为卷积核尺寸为7×7的卷积操作,[;]为向量拼接符号,xAvg表示将x进行平均池化操作,xMax表示将x进行最大池化操作,WMLP为共享全连接层的权重,F(x)为加权后的特征图。
一种基于深度学习的车辆鸣笛定位系统,包括以下模块:
声音信号获取模块,用于在路口设置麦克风阵列,通过麦克风阵列获取路口的声音信号;
鸣笛声源识别模块,用于构建声源识别网络,通过声源识别网络对声音信号进行鸣笛识别,获得鸣笛声源;
鸣笛声源定位模块,用于通过到达时间差定位法对鸣笛声源进行定位,获得鸣笛声源的空间位置。
本发明具有以下有益效果:
本发明创新性的提出了一种用于鸣笛定位的深度学习声源识别网络模型,该网络模型包括特征提取模块、注意力模块和全连接模块;通过特征提取模块和注意力模块对输入的四通道MFCC特征进行多路特征的提取和融合,学习出对声源识别任务最重要的信息,有效提升了模型的识别效率和准确度;这种轻巧的模型结构也有助于在硬件设备上的部署,克服了传统模型参数多、较难应用的缺点;后续通过该模型可以精确识别目标鸣笛声源,从而结合时延估计定位方法提高对鸣笛声音定位的准确率。
附图说明
图1为本发明实施例方法流程图;
图2为声源识别网络结构图;
图3为到达时间差定位法示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明提供一种基于深度学习的车辆鸣笛定位方法,包括以下步骤:
S1:在路口设置麦克风阵列,通过麦克风阵列获取路口的声音信号;
S2:构建声源识别网络,通过声源识别网络对声音信号进行鸣笛识别,获得鸣笛声源;
S3:通过到达时间差定位法对鸣笛声源进行定位,获得鸣笛声源的空间位置。
进一步的,步骤S2具体为:
S21:将声音信号进行预处理,获得四通道MFCC特征;
具体的,在路口环境下,麦克风所采集的鸣笛声音受到噪声的影响较大,需要通过预处理提高信噪比,提取出的四通道MFCC特征为梅尔频谱(MFCC)特征,梅尔频谱是根据人的听觉实验的结果来分析声音的频谱,MFCC可以模拟人耳的听觉特性,提取信号的MFCC特征可以较好的对不同的信号进行分类识别;
预处理的过程包括:预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器处理、对数运算、离散余弦变换(DCT)等数据预处理的过程;
分帧:为了便于进行研究声音信号,可以将一段声音分为多个帧,分帧之后的信号可以认为是平稳信号。为了使相邻两帧的交界处不至于突兀,还引入了帧移;本发明中的帧长取2048,帧移取512;当声音的采样率为 44.1Khz时,每帧的持续时长约为0.046秒;
加窗:汉宁窗的形状类似于正弦函数在[0,π]之间的形状,在下一步对信号进行傅里叶变换时,假设一个窗内的信号代表一个周期信号,当信号乘以窗函数后,数据便可当作周期信号来分析;
快速傅里叶变换:FFT可以将分帧加窗后的信号变换到频域内,因为在时域范围内的变换难以看出声音信号特征,经过FFT处理后可以得到更丰富的声音信号的信息;
梅尔滤波器处理:经过FFT获得能量谱以后,接下来需要构造一个梅尔滤波器组,并将能量谱与之进行点积运算,目的是将能量谱转换为更接近人耳听觉特性的梅尔频谱;
对数运算:人耳对于声音响度的增加非常敏感,稍有变化就可以进行分辨;当声音的响度增强到一定程度以后,即使再有很大的变化,人耳听起来变化开始变的逐渐不明显了,这种人耳对声音的听觉特性就是对数特性;取对数的目的就是让声音信号更加符合人耳听觉的“对数式”特性;
离散余弦变换:DCT可以改变数据的分布,并区分出多余的数据。在进行变换后,大部分的信号数据都会集中在低频区域,因此只需要取变换后的前面一部分数据即可;
S22:构建声源识别网络,声源识别网络包括:特征提取模块、注意力模块和全连接模块;
S23:将四通道MFCC特征输入特征提取模块中进行特征提取,获得四通道特征图;
S24:将四通道特征图输入注意力模块进行特征加权,获得加权后的特征图;
S25:将加权后的特征图输入至全连接模块进行分类识别,获得鸣笛声源。
进一步的,参考图2,特征提取模块、注意力模块和全连接模块依次连接;
特征提取模块包括:第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道;
第一特征提取通道包括:第一卷积层、第一最大池化层、第二卷积层和第二最大池化层,第一卷积层、第一最大池化层、第二卷积层和第二最大池化层依次连接;
第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道的结构相同;
注意力模块包括:通道注意力模块、空间注意力模块,通道注意力模块与空间注意力模块连接;
通道注意力模块包括:全局最大池化、全局平均池化、共享全连接层和第一sigmoid层,全局最大池化、全局平均池化、共享全连接层和第一sigmoid层依次连接;
空间注意力模块包括:通道堆叠、7*7卷积层和第二sigmoid层,通道堆叠、1*1卷积层和第二sigmoid层依次连接。
具体的,声源识别网络中加入注意力模块旨在针对特征图的不同部分分配不同的注意力权重,并根据注意力权重分布模型对关键信息的学习侧重,从而在一定程度上提高模型的性能,降低了计算量;
通道注意力模块旨在判别不同通道的重要性,依据具体任务要求自主深度学习,赋予特征图相应的通道注意力系数,实现加强关注重要特征、降低非重要特征干扰的效果;空间注意力模块旨在增强与任务相关的空间区域的特征表达,赋予特征图相应的空间注意力系数,实现空间区域信息的自适应选择;
将特征图依次赋予通道注意力系数和空间注意力系数加权后输出加权后的特征图。
进一步的,步骤S23具体为:
S231:通过特征提取通道提取MFCC特征的特征图,计算公式为:
其中,i为通道的编号,i=1,2,3,4;xi 1为第i个MFCC特征,Conv1为第一卷积层,MaxPool1为第一最大池化层,Conv2为第二卷积层,MaxPool2为第二最大池化层;xi 2为第i特征提取通道输出的特征图;
S232:将四个特征图进行拼接,获得四通道特征图,计算公式为:
其中,[;]为向量拼接符号,x为四个特征图在通道维度上进行堆叠所得到的四通道特征图。
进一步的,注意力模块的计算公式具体为:
其中,x为四通道特征图,σ为Sigmoid激活函数,Conv7×7为卷积核尺寸为7×7的卷积操作,[;]为向量拼接符号,xAvg表示将x进行平均池化操作,xMax表示将x进行最大池化操作,WMLP为共享全连接层的权重,F(x)为加权后的特征图。
进一步的,步骤S3具体为:
参考图3,对于路口车辆鸣笛声音声源定位来说,假定车辆喇叭的安装位置为同一高度,可以得知麦克风阵列距离地面的高度、麦克风阵列相对于水平面所倾斜的角度;针对这些已知条件,只需求出鸣笛声源与麦克风阵列的方位角和俯仰角/>,再根据空间几何变换,即可求得鸣笛声源的位置;
声源相对于平面的方位角为,俯仰角为/>,选取麦克风阵列中的四个麦克风作为阵元,四个阵元连线中心点为原点,声源到原点的距离为d,阵元到原点的距离为L,阵元到声源的距离为ri,声源的直角坐标是S(xs,ys,zs),各麦克风的坐标为(xi,yi,zi),阵元i和j之间的时延为/>;设声速为c;i和j的取值为1至4;M1、M2、M3和M4为麦克风阵列中的四个麦克风;
根据图3中的几何关系,计算过程具体为:
其中可以认为:
整理方程组可以得出:
本发明提供一种基于深度学习的车辆鸣笛定位系统,包括以下模块:
声音信号获取模块,用于在路口设置麦克风阵列,通过麦克风阵列获取路口的声音信号;
鸣笛声源识别模块,用于构建声源识别网络,通过声源识别网络对声音信号进行鸣笛识别,获得鸣笛声源;
鸣笛声源定位模块,用于通过到达时间差定位法对鸣笛声源进行定位,获得鸣笛声源的空间位置。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于深度学习的车辆鸣笛定位方法,其特征在于,包括以下步骤:
S1:在路口设置麦克风阵列,通过麦克风阵列获取路口的声音信号;
S2:构建声源识别网络,通过声源识别网络对声音信号进行鸣笛识别,获得鸣笛声源;
S3:通过到达时间差定位法对鸣笛声源进行定位,获得鸣笛声源的空间位置;
步骤S2具体为:
S21:将声音信号进行预处理,获得四通道MFCC特征;
S22:构建声源识别网络,声源识别网络包括:特征提取模块、注意力模块和全连接模块;
S23:将四通道MFCC特征输入特征提取模块中进行特征提取,获得四通道特征图;
S24:将四通道特征图输入注意力模块进行特征加权,获得加权后的特征图;
S25:将加权后的特征图输入至全连接模块进行分类识别,获得鸣笛声源。
2.根据权利要求1所述的基于深度学习的车辆鸣笛定位方法,其特征在于,特征提取模块、注意力模块和全连接模块依次连接;
特征提取模块包括:第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道;
第一特征提取通道包括:第一卷积层、第一最大池化层、第二卷积层和第二最大池化层,第一卷积层、第一最大池化层、第二卷积层和第二最大池化层依次连接;
第一特征提取通道、第二特征提取通道、第三特征提取通道和第四特征提取通道的结构相同;
注意力模块包括:通道注意力模块、空间注意力模块,通道注意力模块与空间注意力模块连接;
通道注意力模块包括:全局最大池化、全局平均池化、共享全连接层和第一sigmoid层,全局最大池化、全局平均池化、共享全连接层和第一sigmoid层依次连接;
空间注意力模块包括:通道堆叠、7*7卷积层和第二sigmoid层,通道堆叠、1*1卷积层和第二sigmoid层依次连接。
3.根据权利要求2所述的基于深度学习的车辆鸣笛定位方法,其特征在于,步骤S23具体为:
S231:通过特征提取通道提取MFCC特征的特征图,计算公式为:
其中,i为通道的编号,i=1,2,3,4;xi 1为第i个MFCC特征,Conv1为第一卷积层,MaxPool1为第一最大池化层,Conv2为第二卷积层,MaxPool2为第二最大池化层;xi 2为第i特征提取通道输出的特征图;
S232:将四个特征图进行拼接,获得四通道特征图,计算公式为:
其中,[;]为向量拼接符号,x为四个特征图在通道维度上进行堆叠所得到的四通道特征图。
4.根据权利要求2所述的基于深度学习的车辆鸣笛定位方法,其特征在于,注意力模块的计算公式具体为:
其中,x为四通道特征图,σ为Sigmoid激活函数,Conv7×7为卷积核尺寸为7×7的卷积操作,[;]为向量拼接符号,xAvg表示将x进行平均池化操作,xMax表示将x进行最大池化操作,WMLP为共享全连接层的权重,F(x)为加权后的特征图。
5.一种基于深度学习的车辆鸣笛定位系统,其特征在于,包括以下模块:
声音信号获取模块,用于在路口设置麦克风阵列,通过麦克风阵列获取路口的声音信号;
鸣笛声源识别模块,用于构建声源识别网络,通过声源识别网络对声音信号进行鸣笛识别,获得鸣笛声源;
鸣笛声源定位模块,用于通过到达时间差定位法对鸣笛声源进行定位,获得鸣笛声源的空间位置;
鸣笛声源识别模块的工作流程具体为:
S21:将声音信号进行预处理,获得四通道MFCC特征;
S22:构建声源识别网络,声源识别网络包括:特征提取模块、注意力模块和全连接模块;
S23:将四通道MFCC特征输入特征提取模块中进行特征提取,获得四通道特征图;
S24:将四通道特征图输入注意力模块进行特征加权,获得加权后的特征图;
S25:将加权后的特征图输入至全连接模块进行分类识别,获得鸣笛声源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310840663.3A CN116559778B (zh) | 2023-07-11 | 2023-07-11 | 一种基于深度学习的车辆鸣笛定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310840663.3A CN116559778B (zh) | 2023-07-11 | 2023-07-11 | 一种基于深度学习的车辆鸣笛定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116559778A true CN116559778A (zh) | 2023-08-08 |
CN116559778B CN116559778B (zh) | 2023-09-29 |
Family
ID=87491929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310840663.3A Active CN116559778B (zh) | 2023-07-11 | 2023-07-11 | 一种基于深度学习的车辆鸣笛定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116559778B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117008056A (zh) * | 2023-10-07 | 2023-11-07 | 国网浙江省电力有限公司宁波供电公司 | 一种基于mems确定目标声源的方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050195990A1 (en) * | 2004-02-20 | 2005-09-08 | Sony Corporation | Method and apparatus for separating sound-source signal and method and device for detecting pitch |
CN110210608A (zh) * | 2019-06-05 | 2019-09-06 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制和多层次特征融合的低照度图像增强方法 |
KR102199158B1 (ko) * | 2020-06-19 | 2021-01-06 | 한국건설기술연구원 | 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템 |
CN112560822A (zh) * | 2021-02-23 | 2021-03-26 | 江苏聆世科技有限公司 | 一种基于卷积神经网络的道路声信号分类方法 |
CN112710987A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨理工大学 | 一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统 |
CN112906795A (zh) * | 2021-02-23 | 2021-06-04 | 江苏聆世科技有限公司 | 一种基于卷积神经网络的鸣笛车辆判定方法 |
WO2022227913A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于物联网感知的双特征融合的语义分割系统及方法 |
CN115294994A (zh) * | 2022-06-28 | 2022-11-04 | 重庆理工大学 | 一种真实环境中的鸟类鸣声自动识别系统 |
CN115909040A (zh) * | 2022-12-15 | 2023-04-04 | 西安邮电大学 | 一种基于自适应多特征融合模型的水声目标识别方法 |
CN116106880A (zh) * | 2023-04-13 | 2023-05-12 | 北京理工大学 | 基于注意力机制和多尺度融合的水下声源测距方法和装置 |
-
2023
- 2023-07-11 CN CN202310840663.3A patent/CN116559778B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050195990A1 (en) * | 2004-02-20 | 2005-09-08 | Sony Corporation | Method and apparatus for separating sound-source signal and method and device for detecting pitch |
CN110210608A (zh) * | 2019-06-05 | 2019-09-06 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制和多层次特征融合的低照度图像增强方法 |
KR102199158B1 (ko) * | 2020-06-19 | 2021-01-06 | 한국건설기술연구원 | 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템 |
CN112710987A (zh) * | 2020-12-28 | 2021-04-27 | 哈尔滨理工大学 | 一种针对违法鸣笛车辆进行识别定位的麦克风阵列系统 |
CN112560822A (zh) * | 2021-02-23 | 2021-03-26 | 江苏聆世科技有限公司 | 一种基于卷积神经网络的道路声信号分类方法 |
CN112906795A (zh) * | 2021-02-23 | 2021-06-04 | 江苏聆世科技有限公司 | 一种基于卷积神经网络的鸣笛车辆判定方法 |
WO2022227913A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于物联网感知的双特征融合的语义分割系统及方法 |
CN115294994A (zh) * | 2022-06-28 | 2022-11-04 | 重庆理工大学 | 一种真实环境中的鸟类鸣声自动识别系统 |
CN115909040A (zh) * | 2022-12-15 | 2023-04-04 | 西安邮电大学 | 一种基于自适应多特征融合模型的水声目标识别方法 |
CN116106880A (zh) * | 2023-04-13 | 2023-05-12 | 北京理工大学 | 基于注意力机制和多尺度融合的水下声源测距方法和装置 |
Non-Patent Citations (2)
Title |
---|
侍艳华 等: "基于MFCC和CNN的汽车鸣笛声识别算法", 电声技术, vol. 44, no. 5, pages 30 - 33 * |
徐静 等: "基于麦克风阵列的车辆鸣笛嗅探器", 数据采集与处理, vol. 27, no. 2, pages 262 - 266 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117008056A (zh) * | 2023-10-07 | 2023-11-07 | 国网浙江省电力有限公司宁波供电公司 | 一种基于mems确定目标声源的方法 |
CN117008056B (zh) * | 2023-10-07 | 2024-01-12 | 国网浙江省电力有限公司宁波供电公司 | 一种基于mems确定目标声源的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116559778B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109272989B (zh) | 语音唤醒方法、装置和计算机可读存储介质 | |
CN111239687B (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
CN108375763B (zh) | 一种应用于多声源环境的分频定位方法 | |
CN106023996B (zh) | 基于十字形声阵列宽带波束形成的声识别方法 | |
CN111044973B (zh) | 一种用于麦克风方阵的mvdr目标声源定向拾音方法 | |
JP2017044916A (ja) | 音源同定装置および音源同定方法 | |
CN112904279B (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
CN116559778B (zh) | 一种基于深度学习的车辆鸣笛定位方法及系统 | |
CN110534126B (zh) | 一种基于固定波束形成的声源定位和语音增强方法及系统 | |
CN111123192A (zh) | 一种基于圆形阵列和虚拟扩展的二维doa定位方法 | |
CN106371057B (zh) | 语音声源测向方法及装置 | |
CN108549052A (zh) | 一种时频-空域联合加权的圆谐域伪声强声源定位方法 | |
CN113514801A (zh) | 基于深度学习的麦克风阵列声源定位方法及声源识别方法 | |
CN109696657A (zh) | 一种基于矢量水听器的相干声源定位方法 | |
CN206114888U (zh) | 语音声源测向装置 | |
CN103837858A (zh) | 一种用于平面阵列的远场波达角估计方法及系统 | |
CN111352075B (zh) | 一种基于深度学习的水下多声源定位方法及系统 | |
CN111929638A (zh) | 一种语音波达方向估计方法及装置 | |
CN109283487B (zh) | 基于支持向量机可控功率响应的music-doa方法 | |
CN109541572B (zh) | 一种基于线性环境噪声模型的子空间方位估计方法 | |
CN111443328A (zh) | 基于深度学习的声音事件检测与定位方法 | |
CN116153324A (zh) | 基于深度学习的虚拟阵列扩展的波束形成方法 | |
CN111060867A (zh) | 一种指向性麦克风微阵列波达方向估计方法 | |
CN112305497B (zh) | 一种近场麦克风阵列doa估计测向模糊消除方法 | |
CN115201753A (zh) | 一种低功耗多频谱分辨的语音定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |