CN111986699B - 基于全卷积网络的声音事件检测方法 - Google Patents
基于全卷积网络的声音事件检测方法 Download PDFInfo
- Publication number
- CN111986699B CN111986699B CN202010824598.1A CN202010824598A CN111986699B CN 111986699 B CN111986699 B CN 111986699B CN 202010824598 A CN202010824598 A CN 202010824598A CN 111986699 B CN111986699 B CN 111986699B
- Authority
- CN
- China
- Prior art keywords
- convolution
- network
- time
- audio
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 238000004088 simulation Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 101150071725 SMDT1 gene Proteins 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于全卷积神经网络的声音事件检测方法,主要解决现有网络存在的多音频事件检测精度低,时间复杂度高的问题。其实现方案是:1)对音频流进行梅尔倒谱特征提取得到音频流的时频特征图,并用这些时频特征图构成训练数据集;2)搭建一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络;3)利用数据集对该全卷积多音频事件检测网络进行训练;4)将待检测音频流输入到训练好的全卷积多音频事件检测网络进行多音频事件检测,得到音频事件的类别和存在的起止时间。仿真结果表明,本发明比现有精度最高的网络3D‑CRNN,其精度提升了2%,运行速度提升了5倍左右,可用于安全监控。
Description
技术领域
本发明属于事件检测技术领域,特别涉及一种多音频事件的检测方法,可用于安全监控。
背景技术
音频事件检测是指在音频流中定位感兴趣的声音事件并将其正确分类。音频信息在救灾抢险、枪声监控等领域表现出比图像信息更好的实用性,此外音频信息还可以辅助视频信息完成视频监控,搜索任务等,因此实现音频事件检测极具现实意义。
对现实生活中得到的真实音频流进行声音事件检测一直是一项极有挑战性的任务,这是因为首先在现实中不同事件的并发性强,不同的声音事件常常同时发生,这要求音频事件检测系统能够从混叠的音频信号中识别复数的音频事件,也就是所谓的多音频事件检测;其次事件的时间长度难以确定,不同事件的持续时间有很大区别,相同的音频事件在不同场景,甚至在相同场景下的持续时间也有很大区别。早期的音频事件检测算法包括隐马尔可夫模型法和非负矩阵分解法。近年来,随着深度学习的不断发展,基于深度学习的算法,如CNN,RNN等表现出优于传统算法的性能。
2015年,Emre Cakir等人在Polyphonic sound event detection using multilabel deep neural networks中引入DNN对混叠音频做多标签检测,得到了比传统的隐马尔可夫模型法更高的精度。Haomin Zhang等人在Robust sound event recognition usingconvolutional neural networks一文中使用CNN对噪声环境下的音频事件进行识别,得到的结果证明网络分类器比传统分类器鲁棒性更强。但是他们的网络结构都没有考虑到音频事件的时域特征联系,
2017年,Emre Cakir等人在Convolutional Recurrent Neural Networks forPolyphonic Sound Event Detection一文中结合CNN和RNN提出了CRNN算法。该算法使用CNN提取频谱特征,使用RNN提取时间序列信息,凭借优异的性能成为业界主流。但在检测实际音频流中的声音事件时,没有考虑到不同事件持续长度不一的问题,采取了单一尺度网络提取音频的时域特征。
2018年,为了获得多尺度信息,Rui Lu等人在Multi-Scale Recurrent NeuralNetwork for Sound Event Detection一文中提出了一个多尺度RNN模型,该模型使用两组RNN网络获得捕获不同尺度信息进行多音频事件检测,获得了较好的性能。不过由于RNN网络无法并行处理数据,故算法的时间复杂度过高,网络训练时间过长。
上述的现有方法,虽然可以在一定程度上完成多音频事件检测任务,但是仍旧存在以下问题:1)CRNN网络通过LSTM等RNN类网络捕获时间序列信息,然而LSTM能够有效捕获的最大依赖性长度仅在30到80之间,且是单一尺度信息。这使得RNN类网络难以同时完成定位和分类,且在进行持续时间不同的音频事件检测任务时精度偏低。2)RNN网络难以并行处理,算法时间复杂度高,导致网络训练时间过长。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提出一种基于全卷积网络的声音事件检测方法,以提高多音频事件检测的检测精度和速度。
为实现上述目的,本发明的技术方案包括如下:
(1)对待检测音频流进行数据预处理,即从音频流中提取若干梅尔倒谱特征,每个梅尔倒谱特征表现为一张时频特征图,这些时频特征图组成数据集;
(2)对预处理后得到的数据集做四次交叉验证,得到四组数据子集,每组数据子集包括75%的训练集和25%的验证集;
(3)设计一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络:
(4)对(2)得到的四组数据子集分别进行标准化处理,并将标准化处理后的数据子集与其对应的标签作为输入样本,一起输入到(3)设计的全卷积多音频事件检测网络中,并利用标准化处理后的训练集和验证集对其进行训练,得到训练好的全卷积多音频事件检测网络;
(5)将待检测音频流经过预处理后得到的时频特征图输入到训练好的全卷积多音频事件检测网络中,得到每类音频事件存在的概率值;
(6)设定检测阈值Q,将(5)得到的概率值与检测阈值Q进行比较:若概率值大于Q,则认为该事件存在;若概率值小于等于Q,则认为该事件不存在,得到最终音频事件的检测结果。
本发明与现有技术相比,具有如下优点:
1.本发明由于设计了全卷积多音频事件检测网络,不仅可以捕获短时细粒度特征,以对事件边界进行定位,而且可以捕获长时上下文信息,以对事件进行分类,提高了多音频事件检测的精度。
2.由于本发明设计的全卷积多音频事件检测网络中的频率卷积网络、时间卷积网络和解码卷积网络都支持并行运算,所以本发明的时间复杂度比现有技术更低,训练时间大大缩短。
附图说明
图1为本发明的实现流程图;
图2本发明中提取音频流梅尔倒谱特征的示意图;
图3为本发明中的梅尔滤波器结构示意图;
图4为本发明中的全卷积多音频事件检测网络结构示意图。
具体实施方式
下面结合附图对本发明具体实施例和效果作进一步详细描述。
参照图1,本实例的多音频事件检测方法,包括如下步骤:
步骤1,对音频流信号进行预处理得到数据集。
为了实现对原始音频流信号进行有效的时频特征提取,本实例使用的是音频领域中常用的特征提取方式梅尔倒谱。
如图2所示,本步骤的具体实现如下:
1.1)对原始音频流信号做分帧操作,每一帧长度为40ms,帧与帧之间的时间重叠率为50%;
1.2)对得到的每一帧音频段先作傅里叶变换,再把每一帧的傅里叶变换结果沿时间维堆叠起来,得到音频流信号的声谱图,其中每张声谱图时间维长度为256帧;
1.3)为了得到大小合适的声音特征,将每张声谱图通过数量为40的梅尔标度滤波器组,变换为频率维长度为40梅尔频谱特征,得到的每个音频流信号梅尔频谱特征大小为40×256,其中第一维为频率维,第二维为时间维;
所述梅尔标度滤波器组,如图3所示,其中每一个三角窗为一个梅尔滤波器,它们将普通的频率标度转化为梅尔频率标度;该梅尔标度滤波器一共包含40个三角窗,即为包含40个滤波器的梅尔标度滤波器组。梅尔频率标度由Stevens,Volkmann和Newman在1937年命名。人耳能听到的频率范围是20-20000Hz,但人耳对Hz这种标度单位并不是线性感知关系。例如人耳适应了1000Hz的音调,如果把音调频率提高到2000Hz,则耳朵只能觉察到频率提高了一点点,根本察觉不到频率提高了一倍。而在梅尔频率标度下,人耳对频率的感知度就成了线性关系。也就是说,如果两段音频的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。梅尔标度滤波器组所示映射关系,便是普通频率标度和梅尔频率标度之间的映射关系。
1.4)在每张梅尔频谱特征上做倒谱分析,分别得到其对应的梅尔倒谱,即MFCC特征,每个MFCC特征表现为一张大小是40×256的时频特征图,这些时频特征图组成数据集。
步骤2,对预处理后得到的数据集进行交叉验证。
交叉验证,是一种统计学上将数据样本切割成较小子集的实用方法。
本实例采用四次交叉验证,即将数据集均分为四等份,选择其中一份作为验证集,其余三份作为训练集,组成包括25%的验证集和75%的训练集的数据子集;
根据验证集和训练集的不同选择,总共得到四组数据子集。
步骤3,搭建全卷积多音频事件检测网络。
参照图4,本实例搭建的全卷积多音频事件检测网络自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成,其中:
所述频率卷积网络,其结构由自上而下连接的三个频率卷积子网络组成,每个频率卷积子网络自上而下由二维卷积层、批量标准化层和非重叠最大池化层连接组成;
所述二维卷积层,使用的卷积核大小为3,步长为1,卷积核个数为64,激活函数为ReLU;
所述非重叠最大池化层,其只在频域进行,且第一个频率卷积子网络中的池化层窗口大小为5,第二个和第三个频率卷积子网络中的池化层窗口大小为2;
所述时间卷积网络,由自上而下连接的六个时间卷积子网络组成,每个时间卷积子网络自上而下由一维空洞卷积层和批量标准化层连接组成,其中,一维空洞卷积层使用的空洞系数为2n-1,n为空洞卷积层的层数,卷积核大小为3,步长为1,卷积核个数为32,激活函数为ReLU,dropout为0.2,不使用零填充;
所述解码卷积网络,由自上而下连接的上采样层和一维卷积层组成;
所述上采样层,采用双线性插值法进行上采样,上采样后输出特征的时间维长度为256;
所述一维卷积层,使用的卷积核大小为3,步长为1,卷积核个数与音频事件类别数均为6个,激活函数为sigmiod。
步骤4,对数据子集进行标准化后输入全卷积多音频事件检测网络进行训练。
4.1)对于步骤2得到的四个数据子集,分别使用标准化函数计算其训练集的均值和方差,并基于计算出的均值和方差将训练集和验证集转换为标准正态分布;
4.2)将标准化后的训练集和验证集输入到全卷积多音频事件检测网络,即自上而下依次通过频率卷积网络、时间卷积网络和解码卷积网络;
数据子集中的时频特征图从频率卷积网络输出后大小变为2×256×64,其中,第一维为频率维,第二维为时间维,第三维为通道数,将特征图沿频率维展开,得到大小为256×128的特征图继续输入时间卷积网络,从时间卷积网络输出后大小变为190×32,其中,第一维为时间维,第二维为通道数。由于解码卷积网络中一维卷积层的每个卷积核都连接一个激活函数sigmiod,sigmiod的输出对应于每类音频事件存在的概率值,所以特征图经过解码卷积网络输出后,得到大小为256×6的各类音频事件在当前时间帧发生可能性其中,第一维为时间维,第二维为音频事件类别;
4.3)网络选取了二分类交叉熵作为损失函数,它的输入为两个向量,一个是经过sigmiod激活函数后输出的音频事件存在可能性取值范围是0~1;另一个为对应该帧的某类音频事件是否存在的正确标签向量y,取值范围为0或1,该损失函数的计算公式为:
其中t为当前时间帧数,T为总时间帧数,m为音频事件类别,本实例为6类;
4.4)根据损失函数计算全卷积多音频事件检测网络中卷积核参数的梯度值▽θi,公式如下:
其中θi是全卷积多音频事件检测网络中的第i个卷积核参数;
其中,η为学习率,本实例中取值为0.001;
4.5)更新完一遍全卷积多音频事件检测网络的所有卷积核参数,即完成一次网络训练;设定训练次数N=1000,如果当前训练次数达到1000次,或者损失函数在训练中连续100次不变小,则训练停止,得到训练好的卷积核参数,否则,返回4.2)。
步骤5,使用全卷积多音频事件检测网络对音频流进行多音频事件检测。
5.1)在网络测试阶段,对待检测音频流进行MFCC特征提取,得到待检测音频流的时频特征图,并对时频特征图进行标准化处理;
5.4)根据标签时间维度上1存在的位置,即可判定6类音频事件发生的起止时间,得到最终检测结果。
本发明的效果可通过以下仿真进一步说明:
对本发明搭建的全卷积多音频事件检测网络进行训练,得到网络训练时长;
使用训练好的网络对待检测音频流进行多音频事件检测,根据检测结果计算精度指标Er和F1-score,其中Er指标用来衡量检测结果的错误率,F1-score用来衡量检测结果的精确度;
将本发明的训练时长和精度指标与现有网络进行比较,结果如表1所示:
表1
从表1可以看出,本发明在相同条件下,比现有精度最高的3D-CRNN网络在精度上又提升了2%左右,在运行时间上提升了5倍左右。
Claims (7)
1.一种基于全卷积神经网络的声音事件检测方法,其特征在于,包括如下:
(1)对待检测音频流进行数据预处理,即从音频流中提取若干梅尔倒谱特征,每个梅尔倒谱特征表现为一张时频特征图,这些时频特征图组成数据集;
(2)对预处理后得到的数据集做四次交叉验证,得到四组数据子集,每组数据子集包括75%的训练集和25%的验证集;
(3)设计一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络:
(4)对(2)得到的四组数据子集分别进行标准化处理,并将标准化处理后的数据子集与其对应的标签作为输入样本,一起输入到(3)设计的全卷积多音频事件检测网络中,并利用标准化处理后的训练集和验证集对其进行训练,得到训练好的全卷积多音频事件检测网络;
(5)将待检测音频流经过预处理后得到的时频特征图输入到训练好的全卷积多音频事件检测网络中,得到每类音频事件存在的概率值;
(6)设定检测阈值Q,将(5)得到的概率值与检测阈值Q进行比较:若概率值大于Q,则认为该事件存在;若概率值小于等于Q,则认为该事件不存在,得到最终音频事件的检测结果。
2.根据权利要求1所述的方法,其特征在于,(1)中对音频流进行梅尔倒谱特征提取,实现如下:
(1a)对原始音频流信号做分帧操作,每一帧长度为40ms,帧与帧之间的时间重叠率为50%;
(1b)对每一帧音频先做傅里叶变换得到频谱图,再将每256帧频谱图沿时间维堆叠起来,得到一张声谱图;对所有音频帧进行此操作后,得到若干声谱图;
(1c)将每张声谱图通过滤波器数量为40的梅尔标度滤波器组,变换为频率维长度为40、时间维长度为256的梅尔频谱特征;
(1d)在梅尔频谱特征上做倒谱分析,得到信号的梅尔倒谱特征,该梅尔倒谱特征表现为大小为40×256的时频特征图。
3.根据权利要求1所述的方法,其特征在于,(3)中构成全卷积多音频事件检测网络的频率卷积网络、时间卷积网络和解码卷积网络,其结构分别如下:
所述频率卷积网络,由自上而下连接的三个频率卷积子网络组成,每个频率卷积子网络自上而下由二维卷积层、批量标准化层和非重叠最大池化层连接组成;
所述时间卷积网络,由自上而下连接的六个时间卷积子网络组成,每个时间卷积子网络自上而下由一维空洞卷积层和批量标准化层连接组成;
所述解码卷积网络,由自上而下连接的上采样层和一维卷积层组成。
4.根据权利要求3所述的方法,其特征在于,所述频率卷积网络的参数如下:
所述二维卷积层,使用的卷积核大小为3,步长为1,卷积核个数为64,激活函数为ReLU;
所述非重叠最大池化层,池化操作只在频域进行,其中第一个频率卷积子网络中的池化层窗口大小为5,第二个和第三个频率卷积子网络中的池化层窗口大小为2。
5.根据权利要求3所述的方法,其特征在于,所述时间卷积网络中的一维空洞卷积层,使用的空洞系数为2n-1,n为空洞卷积层的层数,卷积核大小为3,步长为1,卷积核个数为32,激活函数为ReLU,dropout为0.2,不使用零填充。
6.根据权利要求3所述的方法,其特征在于,所述解码卷积网络的参数如下:
所述上采样层,采用双线性插值法进行上采样,上采样后输出特征时间维长度为256;
所述一维卷积层,使用的卷积核大小为3,步长为1,卷积核个数与音频事件类别数相等,为6个,激活函数为sigmiod。
7.根据权利要求1所述的方法,其特征在于,(4)中利用标准化后的训练集和验证集训练全卷积多音频事件检测网络,实现如下:
(4b)损失函数选择二分类交叉熵损失函数,公式如下:
(4c)根据损失函数计算全卷积多音频事件检测网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
(4d)设定训练次数N=1000,如果当前训练次数达到1000次,或者损失函数在训练中连续100次不变小,则训练停止,否则返回(4a)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824598.1A CN111986699B (zh) | 2020-08-17 | 2020-08-17 | 基于全卷积网络的声音事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824598.1A CN111986699B (zh) | 2020-08-17 | 2020-08-17 | 基于全卷积网络的声音事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986699A CN111986699A (zh) | 2020-11-24 |
CN111986699B true CN111986699B (zh) | 2023-07-04 |
Family
ID=73434521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010824598.1A Active CN111986699B (zh) | 2020-08-17 | 2020-08-17 | 基于全卷积网络的声音事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986699B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112727704B (zh) * | 2020-12-15 | 2021-11-30 | 北京天泽智云科技有限公司 | 一种叶片前缘腐蚀的监测方法及系统 |
CN112735466B (zh) * | 2020-12-28 | 2023-07-25 | 北京达佳互联信息技术有限公司 | 一种音频检测方法及装置 |
CN112989106B (zh) * | 2021-05-18 | 2021-07-30 | 北京世纪好未来教育科技有限公司 | 音频分类方法、电子设备以及存储介质 |
CN113808615B (zh) * | 2021-08-31 | 2023-08-11 | 北京字跳网络技术有限公司 | 音频类别定位方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
CN110931046A (zh) * | 2019-11-29 | 2020-03-27 | 福州大学 | 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统 |
-
2020
- 2020-08-17 CN CN202010824598.1A patent/CN111986699B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN110223715A (zh) * | 2019-05-07 | 2019-09-10 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
CN110931046A (zh) * | 2019-11-29 | 2020-03-27 | 福州大学 | 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于多分辨率时频特征融合的声学场景分类;姚琨;杨吉斌;张雄伟;郑昌艳;孙蒙;;声学技术(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111986699A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
US7457749B2 (en) | Noise-robust feature extraction using multi-layer principal component analysis | |
US11386916B2 (en) | Segmentation-based feature extraction for acoustic scene classification | |
CN104795064B (zh) | 低信噪比声场景下声音事件的识别方法 | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
CN109949824B (zh) | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 | |
CN110310666B (zh) | 一种基于se卷积网络的乐器识别方法及系统 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
CN113643723A (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
CN114898773B (zh) | 基于深度自注意力神经网络分类器的合成语音检测方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
Wang et al. | Audio event detection and classification using extended R-FCN approach | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
CN114582325A (zh) | 音频检测方法、装置、计算机设备、存储介质 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN117976006A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
CN113345427A (zh) | 一种基于残差网络的环境声音识别系统及方法 | |
JP2002062892A (ja) | 音響分類装置 | |
CN113870896A (zh) | 基于时频图和卷积神经网络的运动声音判假方法、装置 | |
CN114664325A (zh) | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 | |
Badura et al. | Lip reading using fuzzy logic network with memory | |
Tuan et al. | Mitas: A compressed time-domain audio separation network with parameter sharing | |
CN116230012B (zh) | 一种基于元数据对比学习预训练的两阶段异音检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |