CN111986699A - 基于全卷积网络的声音事件检测方法 - Google Patents

基于全卷积网络的声音事件检测方法 Download PDF

Info

Publication number
CN111986699A
CN111986699A CN202010824598.1A CN202010824598A CN111986699A CN 111986699 A CN111986699 A CN 111986699A CN 202010824598 A CN202010824598 A CN 202010824598A CN 111986699 A CN111986699 A CN 111986699A
Authority
CN
China
Prior art keywords
convolution
network
time
audio
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010824598.1A
Other languages
English (en)
Other versions
CN111986699B (zh
Inventor
赵光辉
张雨萌
王迎斌
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010824598.1A priority Critical patent/CN111986699B/zh
Publication of CN111986699A publication Critical patent/CN111986699A/zh
Application granted granted Critical
Publication of CN111986699B publication Critical patent/CN111986699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于全卷积神经网络的声音事件检测方法,主要解决现有网络存在的多音频事件检测精度低,时间复杂度高的问题。其实现方案是:1)对音频流进行梅尔倒谱特征提取得到音频流的时频特征图,并用这些时频特征图构成训练数据集;2)搭建一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络;3)利用数据集对该全卷积多音频事件检测网络进行训练;4)将待检测音频流输入到训练好的全卷积多音频事件检测网络进行多音频事件检测,得到音频事件的类别和存在的起止时间。仿真结果表明,本发明比现有精度最高的网络3D‑CRNN,其精度提升了2%,运行速度提升了5倍左右,可用于安全监控。

Description

基于全卷积网络的声音事件检测方法
技术领域
本发明属于事件检测技术领域,特别涉及一种多音频事件的检测方法,可用于安全监控。
背景技术
音频事件检测是指在音频流中定位感兴趣的声音事件并将其正确分类。音频信息在救灾抢险、枪声监控等领域表现出比图像信息更好的实用性,此外音频信息还可以辅助视频信息完成视频监控,搜索任务等,因此实现音频事件检测极具现实意义。
对现实生活中得到的真实音频流进行声音事件检测一直是一项极有挑战性的任务,这是因为首先在现实中不同事件的并发性强,不同的声音事件常常同时发生,这要求音频事件检测系统能够从混叠的音频信号中识别复数的音频事件,也就是所谓的多音频事件检测;其次事件的时间长度难以确定,不同事件的持续时间有很大区别,相同的音频事件在不同场景,甚至在相同场景下的持续时间也有很大区别。早期的音频事件检测算法包括隐马尔可夫模型法和非负矩阵分解法。近年来,随着深度学习的不断发展,基于深度学习的算法,如CNN,RNN等表现出优于传统算法的性能。
2015年,Emre Cakir等人在Polyphonic sound event detection using multilabel deep neural networks中引入DNN对混叠音频做多标签检测,得到了比传统的隐马尔可夫模型法更高的精度。Haomin Zhang等人在Robust sound event recognition usingconvolutional neural networks一文中使用CNN对噪声环境下的音频事件进行识别,得到的结果证明网络分类器比传统分类器鲁棒性更强。但是他们的网络结构都没有考虑到音频事件的时域特征联系,
2017年,Emre Cakir等人在Convolutional Recurrent Neural Networks forPolyphonic Sound Event Detection一文中结合CNN和RNN提出了CRNN算法。该算法使用CNN提取频谱特征,使用RNN提取时间序列信息,凭借优异的性能成为业界主流。但在检测实际音频流中的声音事件时,没有考虑到不同事件持续长度不一的问题,采取了单一尺度网络提取音频的时域特征。
2018年,为了获得多尺度信息,Rui Lu等人在Multi-Scale Recurrent NeuralNetwork for Sound Event Detection一文中提出了一个多尺度RNN模型,该模型使用两组RNN网络获得捕获不同尺度信息进行多音频事件检测,获得了较好的性能。不过由于RNN网络无法并行处理数据,故算法的时间复杂度过高,网络训练时间过长。
上述的现有方法,虽然可以在一定程度上完成多音频事件检测任务,但是仍旧存在以下问题:1)CRNN网络通过LSTM等RNN类网络捕获时间序列信息,然而LSTM能够有效捕获的最大依赖性长度仅在30到80之间,且是单一尺度信息。这使得RNN类网络难以同时完成定位和分类,且在进行持续时间不同的音频事件检测任务时精度偏低。2)RNN网络难以并行处理,算法时间复杂度高,导致网络训练时间过长。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提出一种基于全卷积网络的声音事件检测方法,以提高多音频事件检测的检测精度和速度。
为实现上述目的,本发明的技术方案包括如下:
(1)对待检测音频流进行数据预处理,即从音频流中提取若干梅尔倒谱特征,每个梅尔倒谱特征表现为一张时频特征图,这些时频特征图组成数据集;
(2)对预处理后得到的数据集做四次交叉验证,得到四组数据子集,每组数据子集包括75%的训练集和25%的验证集;
(3)设计一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络:
(4)对(2)得到的四组数据子集分别进行标准化处理,并将标准化处理后的数据子集与其对应的标签作为输入样本,一起输入到(3)设计的全卷积多音频事件检测网络中,并利用标准化处理后的训练集和验证集对其进行训练,得到训练好的全卷积多音频事件检测网络;
(5)将待检测音频流经过预处理后得到的时频特征图输入到训练好的全卷积多音频事件检测网络中,得到每类音频事件存在的概率值;
(6)设定检测阈值Q,将(5)得到的概率值与检测阈值Q进行比较:若概率值大于Q,则认为该事件存在;若概率值小于等于Q,则认为该事件不存在,得到最终音频事件的检测结果。
本发明与现有技术相比,具有如下优点:
1.本发明由于设计了全卷积多音频事件检测网络,不仅可以捕获短时细粒度特征,以对事件边界进行定位,而且可以捕获长时上下文信息,以对事件进行分类,提高了多音频事件检测的精度。
2.由于本发明设计的全卷积多音频事件检测网络中的频率卷积网络、时间卷积网络和解码卷积网络都支持并行运算,所以本发明的时间复杂度比现有技术更低,训练时间大大缩短。
附图说明
图1为本发明的实现流程图;
图2本发明中提取音频流梅尔倒谱特征的示意图;
图3为本发明中的梅尔滤波器结构示意图;
图4为本发明中的全卷积多音频事件检测网络结构示意图。
具体实施方式
下面结合附图对本发明具体实施例和效果作进一步详细描述。
参照图1,本实例的多音频事件检测方法,包括如下步骤:
步骤1,对音频流信号进行预处理得到数据集。
为了实现对原始音频流信号进行有效的时频特征提取,本实例使用的是音频领域中常用的特征提取方式梅尔倒谱。
如图2所示,本步骤的具体实现如下:
1.1)对原始音频流信号做分帧操作,每一帧长度为40ms,帧与帧之间的时间重叠率为50%;
1.2)对得到的每一帧音频段先作傅里叶变换,再把每一帧的傅里叶变换结果沿时间维堆叠起来,得到音频流信号的声谱图,其中每张声谱图时间维长度为256帧;
1.3)为了得到大小合适的声音特征,将每张声谱图通过数量为40的梅尔标度滤波器组,变换为频率维长度为40梅尔频谱特征,得到的每个音频流信号梅尔频谱特征大小为40×256,其中第一维为频率维,第二维为时间维;
所述梅尔标度滤波器组,如图3所示,其中每一个三角窗为一个梅尔滤波器,它们将普通的频率标度转化为梅尔频率标度;该梅尔标度滤波器一共包含40个三角窗,即为包含40个滤波器的梅尔标度滤波器组。梅尔频率标度由Stevens,Volkmann和Newman在1937年命名。人耳能听到的频率范围是20-20000Hz,但人耳对Hz这种标度单位并不是线性感知关系。例如人耳适应了1000Hz的音调,如果把音调频率提高到2000Hz,则耳朵只能觉察到频率提高了一点点,根本察觉不到频率提高了一倍。而在梅尔频率标度下,人耳对频率的感知度就成了线性关系。也就是说,如果两段音频的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。梅尔标度滤波器组所示映射关系,便是普通频率标度和梅尔频率标度之间的映射关系。
1.4)在每张梅尔频谱特征上做倒谱分析,分别得到其对应的梅尔倒谱,即MFCC特征,每个MFCC特征表现为一张大小是40×256的时频特征图,这些时频特征图组成数据集。
步骤2,对预处理后得到的数据集进行交叉验证。
交叉验证,是一种统计学上将数据样本切割成较小子集的实用方法。
本实例采用四次交叉验证,即将数据集均分为四等份,选择其中一份作为验证集,其余三份作为训练集,组成包括25%的验证集和75%的训练集的数据子集;
根据验证集和训练集的不同选择,总共得到四组数据子集。
步骤3,搭建全卷积多音频事件检测网络。
参照图4,本实例搭建的全卷积多音频事件检测网络自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成,其中:
所述频率卷积网络,其结构由自上而下连接的三个频率卷积子网络组成,每个频率卷积子网络自上而下由二维卷积层、批量标准化层和非重叠最大池化层连接组成;
所述二维卷积层,使用的卷积核大小为3,步长为1,卷积核个数为64,激活函数为ReLU;
所述非重叠最大池化层,其只在频域进行,且第一个频率卷积子网络中的池化层窗口大小为5,第二个和第三个频率卷积子网络中的池化层窗口大小为2;
所述时间卷积网络,由自上而下连接的六个时间卷积子网络组成,每个时间卷积子网络自上而下由一维空洞卷积层和批量标准化层连接组成,其中,一维空洞卷积层使用的空洞系数为2n-1,n为空洞卷积层的层数,卷积核大小为3,步长为1,卷积核个数为32,激活函数为ReLU,dropout为0.2,不使用零填充;
所述解码卷积网络,由自上而下连接的上采样层和一维卷积层组成;
所述上采样层,采用双线性插值法进行上采样,上采样后输出特征的时间维长度为256;
所述一维卷积层,使用的卷积核大小为3,步长为1,卷积核个数与音频事件类别数均为6个,激活函数为sigmiod。
步骤4,对数据子集进行标准化后输入全卷积多音频事件检测网络进行训练。
4.1)对于步骤2得到的四个数据子集,分别使用标准化函数计算其训练集的均值和方差,并基于计算出的均值和方差将训练集和验证集转换为标准正态分布;
4.2)将标准化后的训练集和验证集输入到全卷积多音频事件检测网络,即自上而下依次通过频率卷积网络、时间卷积网络和解码卷积网络;
数据子集中的时频特征图从频率卷积网络输出后大小变为2×256×64,其中,第一维为频率维,第二维为时间维,第三维为通道数,将特征图沿频率维展开,得到大小为256×128的特征图继续输入时间卷积网络,从时间卷积网络输出后大小变为190×32,其中,第一维为时间维,第二维为通道数。由于解码卷积网络中一维卷积层的每个卷积核都连接一个激活函数sigmiod,sigmiod的输出对应于每类音频事件存在的概率值,所以特征图经过解码卷积网络输出后,得到大小为256×6的各类音频事件在当前时间帧发生可能性
Figure BDA0002635698520000056
其中,第一维为时间维,第二维为音频事件类别;
4.3)网络选取了二分类交叉熵作为损失函数,它的输入为两个向量,一个是经过sigmiod激活函数后输出的音频事件存在可能性
Figure BDA0002635698520000051
取值范围是0~1;另一个为对应该帧的某类音频事件是否存在的正确标签向量y,取值范围为0或1,该损失函数的计算公式为:
Figure BDA0002635698520000052
其中t为当前时间帧数,T为总时间帧数,m为音频事件类别,本实例为6类;
4.4)根据损失函数计算全卷积多音频事件检测网络中卷积核参数的梯度值▽θi,公式如下:
Figure BDA0002635698520000053
其中θi是全卷积多音频事件检测网络中的第i个卷积核参数;
4.5)利用4.4)得到的卷积核参数的梯度值
Figure BDA0002635698520000054
更新全卷积多音频事件检测网络的参数,更新公式为:
Figure BDA0002635698520000055
其中,η为学习率,本实例中取值为0.001;
4.5)更新完一遍全卷积多音频事件检测网络的所有卷积核参数,即完成一次网络训练;设定训练次数N=1000,如果当前训练次数达到1000次,或者损失函数在训练中连续100次不变小,则训练停止,得到训练好的卷积核参数,否则,返回4.2)。
步骤5,使用全卷积多音频事件检测网络对音频流进行多音频事件检测。
5.1)在网络测试阶段,对待检测音频流进行MFCC特征提取,得到待检测音频流的时频特征图,并对时频特征图进行标准化处理;
5.2)将标准化后的时频特征图输入到训练好的全卷机多音频事件检测网络中,得到6类音频事件在每个时间帧中存在的输出概率值
Figure BDA0002635698520000061
5.3)设音频事件检测阈值Q为0.5,将网络输出的某类音频事件存在的概率值
Figure BDA0002635698520000062
与0.5进行比较:若
Figure BDA0002635698520000063
大于0.5,则认为该事件存在,将标签置1;若
Figure BDA0002635698520000064
小于等于0.5,则认为该事件不存在,将标签置0;
5.4)根据标签时间维度上1存在的位置,即可判定6类音频事件发生的起止时间,得到最终检测结果。
本发明的效果可通过以下仿真进一步说明:
对本发明搭建的全卷积多音频事件检测网络进行训练,得到网络训练时长;
使用训练好的网络对待检测音频流进行多音频事件检测,根据检测结果计算精度指标Er和F1-score,其中Er指标用来衡量检测结果的错误率,F1-score用来衡量检测结果的精确度;
将本发明的训练时长和精度指标与现有网络进行比较,结果如表1所示:
表1
Figure BDA0002635698520000065
从表1可以看出,本发明在相同条件下,比现有精度最高的3D-CRNN网络在精度上又提升了2%左右,在运行时间上提升了5倍左右。

Claims (7)

1.一种基于全卷积神经网络的声音事件检测方法,其特征在于,包括如下:
(1)对待检测音频流进行数据预处理,即从音频流中提取若干梅尔倒谱特征,每个梅尔倒谱特征表现为一张时频特征图,这些时频特征图组成数据集;
(2)对预处理后得到的数据集做四次交叉验证,得到四组数据子集,每组数据子集包括75%的训练集和25%的验证集;
(3)设计一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络:
(4)对(2)得到的四组数据子集分别进行标准化处理,并将标准化处理后的数据子集与其对应的标签作为输入样本,一起输入到(3)设计的全卷积多音频事件检测网络中,并利用标准化处理后的训练集和验证集对其进行训练,得到训练好的全卷积多音频事件检测网络;
(5)将待检测音频流经过预处理后得到的时频特征图输入到训练好的全卷积多音频事件检测网络中,得到每类音频事件存在的概率值;
(6)设定检测阈值Q,将(5)得到的概率值与检测阈值Q进行比较:若概率值大于Q,则认为该事件存在;若概率值小于等于Q,则认为该事件不存在,得到最终音频事件的检测结果。
2.根据权利要求1所述的方法,其特征在于,(1)中对音频流进行梅尔倒谱特征提取,实现如下:
(1a)对原始音频流信号做分帧操作,每一帧长度为40ms,帧与帧之间的时间重叠率为50%;
(1b)对每一帧音频先做傅里叶变换得到频谱图,再将每256帧频谱图沿时间维堆叠起来,得到一张声谱图;对所有音频帧进行此操作后,得到若干声谱图;
(1c)将每张声谱图通过滤波器数量为40的梅尔标度滤波器组,变换为频率维长度为40、时间维长度为256的梅尔频谱特征;
(1d)在梅尔频谱特征上做倒谱分析,得到信号的梅尔倒谱特征,该梅尔倒谱特征表现为大小为40×256的时频特征图。
3.根据权利要求1所述的方法,其特征在于,(3)中构成全卷积多音频事件检测网络的频率卷积网络、时间卷积网络和解码卷积网络,其结构分别如下:
所述频率卷积网络,由自上而下连接的三个频率卷积子网络组成,每个频率卷积子网络自上而下由二维卷积层、批量标准化层和非重叠最大池化层连接组成;
所述时间卷积网络,由自上而下连接的六个时间卷积子网络组成,每个时间卷积子网络自上而下由一维空洞卷积层和批量标准化层连接组成。
所述解码卷积网络,由自上而下连接的上采样层和一维卷积层组成。
4.根据权利要求3所述的方法,其特征在于,所述频率卷积网络的参数如下:
所述二维卷积层,使用的卷积核大小为3,步长为1,卷积核个数为64,激活函数为ReLU;
所述非重叠最大池化层,池化操作只在频域进行,其中第一个频率卷积子网络中的池化层窗口大小为5,第二个和第三个频率卷积子网络中的池化层窗口大小为2。
5.根据权利要求3所述的方法,其特征在于,所述时间卷积网络中的一维空洞卷积层,使用的空洞系数为2n-1,n为空洞卷积层的层数,卷积核大小为3,步长为1,卷积核个数为32,激活函数为ReLU,dropout为0.2,不使用零填充。
6.根据权利要求3所述的方法,其特征在于,所述解码卷积网络的参数如下:
所述上采样层,采用双线性插值法进行上采样,上采样后输出特征时间维长度为256;
所述一维卷积层,使用的卷积核大小为3,步长为1,卷积核个数与音频事件类别数相等,为6个,激活函数为sigmiod。
7.根据权利要求1所述的方法,其特征在于,(4)中利用标准化后的训练集和验证集训练全卷积多音频事件检测网络,实现如下:
(4a)将标准化后的训练集和验证集输入到(3)设计的全卷积多音频事件检测网络中,得到每类音频事件的概率值
Figure FDA0002635698510000021
Figure FDA0002635698510000022
代表第m类音频事件在第t帧中存在的可能性;
(4b)损失函数选择二分类交叉熵损失函数,公式如下:
Figure FDA0002635698510000031
其中t为当前时间帧数,T为总时间帧数,m为音频事件类别,
Figure FDA0002635698510000032
是数据集的真实标签;
(4c)根据损失函数计算全卷积多音频事件检测网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
(4d)设定训练次数N=1000,如果当前训练次数达到1000次,或者损失函数在训练中连续100次不变小,则训练停止,否则返回(4a)。
CN202010824598.1A 2020-08-17 2020-08-17 基于全卷积网络的声音事件检测方法 Active CN111986699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824598.1A CN111986699B (zh) 2020-08-17 2020-08-17 基于全卷积网络的声音事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824598.1A CN111986699B (zh) 2020-08-17 2020-08-17 基于全卷积网络的声音事件检测方法

Publications (2)

Publication Number Publication Date
CN111986699A true CN111986699A (zh) 2020-11-24
CN111986699B CN111986699B (zh) 2023-07-04

Family

ID=73434521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824598.1A Active CN111986699B (zh) 2020-08-17 2020-08-17 基于全卷积网络的声音事件检测方法

Country Status (1)

Country Link
CN (1) CN111986699B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112727704A (zh) * 2020-12-15 2021-04-30 北京天泽智云科技有限公司 一种叶片前缘腐蚀的监测方法及系统
CN112735466A (zh) * 2020-12-28 2021-04-30 北京达佳互联信息技术有限公司 一种音频检测方法及装置
CN112989106A (zh) * 2021-05-18 2021-06-18 北京世纪好未来教育科技有限公司 音频分类方法、电子设备以及存储介质
CN113808615A (zh) * 2021-08-31 2021-12-17 北京字跳网络技术有限公司 音频类别定位方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065030A (zh) * 2018-08-01 2018-12-21 上海大学 基于卷积神经网络的环境声音识别方法及系统
CN110223715A (zh) * 2019-05-07 2019-09-10 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
KR20190110939A (ko) * 2018-03-21 2019-10-01 한국과학기술원 합성곱 신경망 기반 환경음 인식 방법 및 시스템
CN110931046A (zh) * 2019-11-29 2020-03-27 福州大学 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190110939A (ko) * 2018-03-21 2019-10-01 한국과학기술원 합성곱 신경망 기반 환경음 인식 방법 및 시스템
CN109065030A (zh) * 2018-08-01 2018-12-21 上海大学 基于卷积神经网络的环境声音识别方法及系统
CN110223715A (zh) * 2019-05-07 2019-09-10 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
CN110931046A (zh) * 2019-11-29 2020-03-27 福州大学 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚琨;杨吉斌;张雄伟;郑昌艳;孙蒙;: "基于多分辨率时频特征融合的声学场景分类", 声学技术, no. 04 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112727704A (zh) * 2020-12-15 2021-04-30 北京天泽智云科技有限公司 一种叶片前缘腐蚀的监测方法及系统
CN112735466A (zh) * 2020-12-28 2021-04-30 北京达佳互联信息技术有限公司 一种音频检测方法及装置
CN112735466B (zh) * 2020-12-28 2023-07-25 北京达佳互联信息技术有限公司 一种音频检测方法及装置
CN112989106A (zh) * 2021-05-18 2021-06-18 北京世纪好未来教育科技有限公司 音频分类方法、电子设备以及存储介质
CN112989106B (zh) * 2021-05-18 2021-07-30 北京世纪好未来教育科技有限公司 音频分类方法、电子设备以及存储介质
CN113808615A (zh) * 2021-08-31 2021-12-17 北京字跳网络技术有限公司 音频类别定位方法、装置、电子设备和存储介质
CN113808615B (zh) * 2021-08-31 2023-08-11 北京字跳网络技术有限公司 音频类别定位方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111986699B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN104795064B (zh) 低信噪比声场景下声音事件的识别方法
EP3701528B1 (en) Segmentation-based feature extraction for acoustic scene classification
CN110120218B (zh) 基于gmm-hmm的高速公路大型车辆识别方法
CN110310666B (zh) 一种基于se卷积网络的乐器识别方法及系统
CN109949824B (zh) 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111429943B (zh) 音频中音乐及音乐相对响度的联合检测方法
CN115101076B (zh) 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN112541533A (zh) 一种基于神经网络与特征融合的改装车识别方法
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
CN114582325A (zh) 音频检测方法、装置、计算机设备、存储介质
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN113870896A (zh) 基于时频图和卷积神经网络的运动声音判假方法、装置
Badura et al. Lip reading using fuzzy logic network with memory
CN116230012B (zh) 一种基于元数据对比学习预训练的两阶段异音检测方法
Valanchery Analysis of different classifier for the detection of double compressed AMR audio
CN116052725B (zh) 一种基于深度神经网络的细粒度肠鸣音识别方法及装置
Kim et al. Sound Event Detection Using Attention and Aggregation-Based Feature Pyramid Network
Zhang Dynamic Feature Extraction Method of Phone Speakers Based on Deep Learning
CN116072146A (zh) 基于声纹识别的抽水蓄能站检测方法及系统
Yan et al. Sound event recognition based in feature combination with low snr

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant