CN111443328A - 基于深度学习的声音事件检测与定位方法 - Google Patents
基于深度学习的声音事件检测与定位方法 Download PDFInfo
- Publication number
- CN111443328A CN111443328A CN202010184468.6A CN202010184468A CN111443328A CN 111443328 A CN111443328 A CN 111443328A CN 202010184468 A CN202010184468 A CN 202010184468A CN 111443328 A CN111443328 A CN 111443328A
- Authority
- CN
- China
- Prior art keywords
- training
- task
- namely
- doa
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于深度学习的声音事件检测与定位方法,包括以下步骤:步骤一,分割数据集;步骤二,预处理,即将包含声音信号的数据集进行特征提取得到Log‑Mel谱图和GCC‑PHAT;步骤三,构建深度学习模型,即借鉴ResNet框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;步骤四:两步训练,即先进行SED任务的训练,得到最佳模型并将训练结果作为特征输入到DOA任务的训练中;之后再进行DOA任务的训练,最终得到最佳训练模型。本发明首先提取出适合于该任务训练的特征,从而提高了抗混响性能,并提出一种新的框架结构来解决网络加深却导致精度下降的问题,最终提高了预测的精度。
Description
技术领域
本发明涉及一种基于深度学习的声音事件检测与定位方法,应用于机器人、自然科学、环境监测、导航等技术领域。
背景技术
近些年,随着数字信号处理技术和神经网络技术的发展,声音定位技术取得了巨大的发展。例如,Soumitro等人提出了一种基于CNN(卷积神经网络)的单源DOA(DirectionOf Arrival,波达方向估计)估计方法,该方法是对麦克风接收信号做短期傅立叶变换,然后将相位分量作为整个CNN网络的输入,通过三层卷积层和两层完全连接层,使用softmax激活函数来获得输出的分层后验概率。实验表明,该方法在噪声和混响声学环境中可以胜过变换加权可控响应功率(SRP-PHAT:Steered Response Power-Phase Transform)。然而它不适用于多个声源环境,并且声源的估计角度不能在空间上定位。为了适应多声源环境,作者还提出了一种改进的方法来解决混合时间结构数据集中多时间帧角度的多源DOA估计问题。并且还验证了M个麦克风DOA估计性能最优需要M-1层卷积层。该网络结构可以适应广泛的噪声环境,但是在动态声学环境中估计性能差,并且当麦克风的数量增加时计算复杂度高。
声音检测与定位(sound event location and detection)是确定每个活动声音事件并估计它们各自的空间位置的组合任务。2017年Sharath adavanne等人提出了利用RNN(循环神经网络)与CNN的结合成CRNN(卷积循环神经网络)实现DOA估计,这种基于CRNN的神经网络将多声道音频作为输入,首先提取所有声道的频谱图,之后使用CRNN将谱图的相位和幅度顺序地映射到两个输出。后来,Sharath adavanne等人在CRNN网络下提出了将SED(声音事件的检测)与声音定位的DOA估计联合起来,第一输出为多标签多分类任务的声音事件检测,另一输出为DOA估计,定位于以麦克风为原点的3D笛卡尔坐标。这是一种基于回归方法的定位方法,提高了召回率,但是错误率却明显高于基于分类方法的DOA估计。
Yin C等人在CRNN基础上又做出了框架以及输入的改变,将与原来SED和DOA同时训练任务改为先训练SED再训练DOA的两步任务,避免了训练过程中两种loss值相互的影响,并将SED训练结果作为掩码输入到DOA的训练种去,同时加深网络结构,除此以外,作者又将特征提取由原来的幅度相位谱图改为了Log-Mel(对数梅尔)谱图和更适合网络训练的GCC-PHAT(相位加权的广义互相关变换),利用该方法对比之前Sharath adavanne网络有了巨大提升。但是研究同时发现,将网络进一步加深时结果不稳定下降了精度。在Yin C等人提出两阶段训练后,其它研究人员也借鉴了这个思想,开始将联合训练改为分步训练。Kyoungjin Noh提出了三阶段训练,首先提取MRCG(多分辨率耳蜗图)经过CRNN训练得到两个模型,一个是最多只有一个声音源,另一个是包括最多两个的多声音源,该步骤称为SAD;其次提取Log-Mel谱图作为输入训练得到SED;最后提取GCC-PHAT作为输入训练得到DOA。文章为了增加数据集量,随机选取不重叠音频文件进行混合。框架上,SAD使用尺寸为3*1的三层CNN再加两层GRU(门控循环单元)最后经过两层全连接层;SED与SAD类似,但是CNN层处是在原来基础上再同时加入6层卷积层并行训练最后结合输入到GRU层,其中6层卷积层每两层加入一个池化层,且每两层的卷积尺寸都为1*3和3*1,这实际上是为了将卷积尺寸扩大为3*3;DOA使用8层尺寸为3*3的卷积层,并在每层加入池化层和BN(Batch Norm标准化)层,之后加上FC(全连接层),且该文章DOA也使用分类(角度分为36*9)。该方法DOA精度很高但是SED精度较差,且由于分步进行,复杂度较高。
发明内容
针对现有技术的不足,本发明提出一种基于深度学习的声音事件检测与定位方法,该方法为了解决采用现有深度学习模型进行声音事件检测与定位存在抗混响性能差、网络加深导致精度下降问题,使用两步骤训练即首先进行SED部分,检测声音事件的发生和偏移,并将文本标签与检测到的声音事件进一步关联;之后进行DOA部分训练,计算出定位声源位置的误差。该方法最终进一步降低了SED的错误率,提高了DOA估计精度。
为了实现上述目的,本发明的构思是:
首先将包含声音信号的数据集分为训练集,验证集和测试集;然后进行预处理,也就是提取出适合于该任务训练的特征;之后构建出适合于该任务训练的神经网络结构并进行训练;最后通过训练得到SED和DOA误差率最低的最佳模型。
根据上述发明构思,本发明采用的技术方案是:
一种基于深度学习的声音事件检测与定位方法,具体包括以下步骤:
步骤一,分割数据集,即将数据集分为训练集、验证集、测试集,并按照一定比例划分;
步骤二,预处理,即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT;
步骤三,构建深度学习模型,即借鉴在计算机视觉领域常用的用于解决层数加深精度下降问题的ResNet(残差网络)框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;
步骤四:两步训练,即先进行SED任务的训练,得到最佳模型并将训练结果作为特征输入到DOA任务的训练中;之后再进行DOA任务的训练,最终得到最佳训练模型。
与现有技术相比,本发明具有如下突出的优点和实质性特征:
本方法通过采用预处理技术提取出适合于该任务训练的特征,从而改善了抗混响性能,并提出一种结合ResNet和RNN网络的神经网络框架,解决网络加深却导致精度下降的问题,最终提高了预测的精度。
附图说明
图1为本发明一种基于深度学习的声音事件检测与定位方法的流程图。
图2为本发明的神经网络框架结构示意图。
图3为本发明神经网络中ResNet层详细示意图。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图作进一步的详细描述:
本方法的流程参见图1,本发明提出一种基于深度学习的声音事件检测与定位方法,该方法为了保持低复杂,使用两步骤训练即首先进行SED(声音事件检测)部分,检测声音事件的发生和偏移,并将文本标签与检测到的声音事件进一步关联;之后进行DOA部分训练,计算出定位声源位置的误差。该方法最终进一步降低了SED的错误率,提高了DOA估计精度。具体实施步骤如下:
步骤S1:分割数据集;将数据集分为训练集、验证集、测试集,并按照一定比例划分,具体如下:
数据集由四个交叉验证拆分组成,分别是1、2、3、4部分。第一组是训练集使用3和4部分,验证集使用2部分,测试集使用1部分;第二组是训练集使用4和1部分,验证集使用3部分,测试集使用2部分;第三组是训练集使用1和2部分,验证集使用4部分,测试集使用3部分;第四组是训练集使用2和3部分,验证集使用1部分,测试集使用4部分。通过交叉验证可以减少训练过程中的过拟合,而且还可以在有限的数据中获取尽可能多的有效信息。
步骤S2:预处理;将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel(对数梅尔)谱图和计算速度快且有一定抗混响能力的GCC-PHAT(相位加权的广义互相关变换);具体如下:
首先进行STFT(短时傅里叶变换)得到每组信号的频谱信息,然后通过Mel滤波器以及取对数就可以得到当前通道信号的Log-Mel谱图。提取Mel谱图是为了将实际频谱转换为人耳可以感知的频率范围内,转换公式是:
Mel(f)=2595log(1+f/700) (1)
其中f为频率。
通过计算两组信号的互相相关功率谱,再乘以加权函数然后进行傅里叶逆变换,就可以得到GCC-PHAT。其计算公式是:
其中IFFT表示将信号从频域变为时域的傅里叶反变换;Xi(f,t)是第i个麦克风信号的短时傅里叶变换;[Xj(f,t)]*是Xj(f,t)的共轭函数。
步骤S3:构建深度学习模型;借鉴在计算机视觉领域常用的用于解决层数加深精度下降问题的ResNet框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;具体如下:
该步骤网络初始学习率设置为0.001,用于前30次迭代,之后每次迭代学习率都降低10%,且采用Adam优化器,训练模型按图2所示次序具体参数分别为:
1)卷积层1,共计64个卷积核,卷积核大小为3*3,步长设置2,填充模式设置为SAME;激活函数设置为ReLU,并执行局部响应归一化,且不设置偏执单元;
2)ResNet网络,共计32个卷积层,且每两层卷积层的输入和输出之间建立一条直接关联的通道;
3)降维,将2)输出维度进行降维处理再输入到4)中;
4)Bi-GRU(双向门控循环单元),对于SED分支,使用一层Bi-GRU其映射为256维,且输入输出的第一维是batch_size(一次输入数据的大小),因此将batch_first设置为True,将bidirectional也设置为True,num_layers设置为1,hidden_size设置为256;对于DOA分支使Bi-GRU的叠加层数设置为2,其他设置和SED分支相同;
5)全连接层,映射为512维,设置偏执单元bias,对于SED分支输出为N维,对于DOA分支输出为2N维使其分别作用于方位角和俯仰角;
6)对于SED分支,使用sigmoid激活函数;对于DOA分支使用Linear激活函数
7)上采样,对最后输出的多通道数据进行上采样,使用默认方式nearest。
进一步地,步骤1)中所提到ResNet网络内部具体网络模型按图3所示的参数分别为:
(1)卷积层1,其中包含3组卷积层,每一组卷积层通道数为64,卷积核大小为3*3,步长设置1,填充模式设置为SAME;激活函数设置为ReLU,并执行局部响应归一化,且不设置偏执单元;
(2)卷积层2,其中包含4组卷积层,每一组卷积层卷积核为128个,卷积核大小为3*3,步长设置1,填充模式设置为SAME;激活函数设置为ReLU,并执行局部响应归一化,且不设置偏执单元;
(3)卷积层3,其中包含6层卷积层每一组卷积层通道数为256,卷积核大小为3*3,步长设置1,填充模式设置为SAME;激活函数设置为ReLU,并执行局部响应归一化,且不设置偏执单元;
(4)卷积层4,其中包含3层卷积层每一组卷积层通道数为512,卷积核大小为3*3,步长设置1,填充模式设置为SAME;激活函数设置为ReLU,并执行局部响应归一化,且不设置偏执单元。
步骤S4:两步训练;先进行SED任务的训练,得到最佳模型并将训练结果作为特征输入到DOA任务的训练中;之后再进行DOA任务的训练,从而得到最佳训练模型,最终通过测试集进行测试。
Claims (1)
1.一种基于深度学习的声音事件检测与定位方法,其特征在于,具体包括以下步骤:
步骤一,分割数据集,即将数据集分为训练集、验证集、测试集,并按照一定比例划分;
步骤二,预处理,即将包含声音信号的数据集进行特征提取得到适合于SED训练的Log-Mel谱图和计算速度快且有一定抗混响能力的GCC-PHAT;
步骤三,构建深度学习模型,即借鉴在计算机视觉领域常用的用于解决层数加深精度下降问题的ResNet残差网络框架,构建出结合ResNet框架和RNN相结合的一种网络架构,并且层与层之间复合了池化、正则化、归一化模块用于优化特征提取提高非线性度;
步骤四:两步训练,即先进行SED任务的训练,得到最佳模型并将训练结果作为特征输入到DOA任务的训练中;之后再进行DOA任务的训练,最终得到最佳训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184468.6A CN111443328B (zh) | 2020-03-16 | 2020-03-16 | 基于深度学习的声音事件检测与定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184468.6A CN111443328B (zh) | 2020-03-16 | 2020-03-16 | 基于深度学习的声音事件检测与定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111443328A true CN111443328A (zh) | 2020-07-24 |
CN111443328B CN111443328B (zh) | 2023-07-18 |
Family
ID=71650506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010184468.6A Active CN111443328B (zh) | 2020-03-16 | 2020-03-16 | 基于深度学习的声音事件检测与定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111443328B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN113724733A (zh) * | 2021-08-31 | 2021-11-30 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN109492761A (zh) * | 2018-10-30 | 2019-03-19 | 深圳灵图慧视科技有限公司 | 实现神经网络的fpga加速装置、方法和系统 |
US20190104357A1 (en) * | 2017-09-29 | 2019-04-04 | Apple Inc. | Machine learning based sound field analysis |
CN110531313A (zh) * | 2019-08-30 | 2019-12-03 | 西安交通大学 | 一种基于深度神经网络回归模型的近场信号源定位方法 |
-
2020
- 2020-03-16 CN CN202010184468.6A patent/CN111443328B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
US20190104357A1 (en) * | 2017-09-29 | 2019-04-04 | Apple Inc. | Machine learning based sound field analysis |
CN109492761A (zh) * | 2018-10-30 | 2019-03-19 | 深圳灵图慧视科技有限公司 | 实现神经网络的fpga加速装置、方法和系统 |
CN110531313A (zh) * | 2019-08-30 | 2019-12-03 | 西安交通大学 | 一种基于深度神经网络回归模型的近场信号源定位方法 |
Non-Patent Citations (2)
Title |
---|
SHARATH ADAVANNE 等: "Sound Event Localization and Detection of Overlapping Sources Using Convolutional Recurrent Neural Networks", 《 IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 * |
YIN CAO 等: "TWO-STAGE SOUND EVENT LOCALIZATION AND DETECTION USING INTENSITY VECTOR AND GENERALIZED CROSS-CORRELATION", 《DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2019》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN111933188B (zh) * | 2020-09-14 | 2021-02-05 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN113724733A (zh) * | 2021-08-31 | 2021-11-30 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
CN113724733B (zh) * | 2021-08-31 | 2023-08-01 | 上海师范大学 | 生物声音事件检测模型训练方法、声音事件的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111443328B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
CN105068048B (zh) | 基于空间稀疏性的分布式麦克风阵列声源定位方法 | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
CN109841226A (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN109272989A (zh) | 语音唤醒方法、装置和计算机可读存储介质 | |
CN109188362B (zh) | 一种麦克风阵列声源定位信号处理方法 | |
CN102147458B (zh) | 一种针对宽带声源的波达方向估计方法及其装置 | |
CN112799128B (zh) | 一种地震信号检测和震相提取的方法 | |
CN111931820B (zh) | 一种基于卷积残差网络的水中目标辐射噪声lofar谱图线谱提取方法 | |
CN110534126B (zh) | 一种基于固定波束形成的声源定位和语音增强方法及系统 | |
CN112183647A (zh) | 一种基于深度学习的变电站设备声音故障检测及定位方法 | |
CN111798869B (zh) | 一种基于双麦克风阵列的声源定位方法 | |
CN111443328A (zh) | 基于深度学习的声音事件检测与定位方法 | |
CN113109759B (zh) | 基于小波变换联合卷积神经网络的水声阵列信号波达方向估计方法 | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
Yao et al. | A recursive denoising learning for gear fault diagnosis based on acoustic signal in real industrial noise condition | |
CN113111765B (zh) | 一种基于深度学习的多语音源计数和定位方法 | |
CN111785286A (zh) | 面向家居cnn分类与特征匹配联合的声纹识别方法 | |
CN116559778B (zh) | 一种基于深度学习的车辆鸣笛定位方法及系统 | |
Nesta et al. | Enhanced multidimensional spatial functions for unambiguous localization of multiple sparse acoustic sources | |
CN116631438A (zh) | 一种基于最小p范数的宽度学习及二次相关的声源定位方法 | |
CN108269581B (zh) | 一种基于频域相干函数的双麦克风时延差估计方法 | |
CN115267672A (zh) | 声源检测和定位的方法 | |
Song et al. | Decoupling Temporal Convolutional Networks Model in Sound Event Detection and Localization | |
Yang et al. | A Review of Sound Source Localization Research in Three-Dimensional Space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |