CN114881212B - 基于双分支判别特征神经网络的声音事件检测方法 - Google Patents
基于双分支判别特征神经网络的声音事件检测方法 Download PDFInfo
- Publication number
- CN114881212B CN114881212B CN202210490907.5A CN202210490907A CN114881212B CN 114881212 B CN114881212 B CN 114881212B CN 202210490907 A CN202210490907 A CN 202210490907A CN 114881212 B CN114881212 B CN 114881212B
- Authority
- CN
- China
- Prior art keywords
- features
- branch
- sound event
- branches
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims abstract description 42
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000007423 decrease Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000011160 research Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于双分支判别特征神经网络的声音事件检测方法,包括:将包含声音信号的数据集进行特征提取,得到log‑mel频谱图的数据集,并将其分为训练集、测试集和验证集;建立双分支判别特征网络模型,所述的双分支判别特征网络模型包括双分支采样、特征提取、双分支的特征融合和损失融合:将测试集和验证集作为训练后的模型的输入,该模型的输出即为该数据集的声音事件检测的结果,包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。本发明通过双分支判别特征融合的方式获取到尾部类和难区分类别的判别性特征,并在一定程度上均衡了分类器的类别权重,提高了声音事件检测的效果。
Description
技术领域
本发明属于神经网络模型设计及应用,特别涉及一种双分支判别特征神经网络模型的应用。
背景技术
近些年来,随着网络技术的发展,音频数据大量的出现,人们发现声音事件检测技术能给人类的生活带来很大的帮助。声音事件是指音频中所包含有一些特定的有用的信息。例如,汽车的鸣笛包含着汽车正在靠近的信息,警报器的声音包含着周围可能有危险事件的信息,风声和雨声中包含着天气环境的信息,这些信息的识别对人类生活十分有用。
在目前的研究中,研究者普遍把声音事件检测任务分为声音事件分类和声音事件定位两个子任务,其中声音事件定位一般是基于帧级别的声音事件分类实现的。因此声音事件分类的效果好坏成为声音事件检测的效果好坏的重要决定因素,所以声音事件检测中的分类任务有着重要的研究价值。声音事件检测的领域的研究相对与发展较为完善图像识别领域的研究还存在着很多挑战。首先声音事件检测进行研究的是声音信号,其形式多种多样,随机性也非常的强。其次在现实生活中一个音频中还会出现多个声音事件,这样声音事件检测所面临的情况就变的非常的复杂,识别难度也就会因此大幅度的增加。又因为早期声音事件检测方面并没有大型完善并且可靠的数据集,使得声音事件检测的发展收到了很大的限制。
随着AudioSet和其在自动驾驶、智能家居和智能监控等领域的声音事件检测子数据集的出现,人们逐渐发现现实生活中声音的数据集存在着数据不均衡,数据类别间相似程度大,多标签等现象。但目前声音事件检测的研究在分类方面都忽视了这些由于数据集的数据分布和数据特点而造成的难分类现象。而这些想象会提升模型的识别难度,产生误导性结果,从而使声音事件检测中分类任务的准确性降低。如何改进模型,迎合数据集中数据分布特点,提高声音事件检测中分类任务的准确性,是目前现有声音事件检测技术所存在的不足。
发明内容
为了解决上述技术问题,本发明提出的一种基于双分支判别特征网络的声音事件检测方法,通过双分支网络同时解决长尾问题和类别间难区分的问题。其中设计的双分支判别特征网络模型主要包括双分支采样、特征提取、双分支的特征融合和损失融合。通过对数据集进行均匀采样和逆采样作为模型两个分支的输入。采用基于通道注意力机制融合语义特征和空间特征的CNN-Transformer模型来更具指导性的获取声音事件更具判别性的特征。通过随着学习过程逐渐减小的超参数λ将两个分支的特征进行融合,在保持判别特征提取基础上,更好的均衡了分类器的权重。从而使模型在学习过程中的表征学习的阶段更加关注均匀采样分支,在后面的分类学习阶段逐渐关注逆采样分支。采用这种分支融合方式在模型的特征学习方面先关注通用特征再关注后面两个分支与类别相关的特征,从而提取到的特征对后面两个分支更具判别性。从而同时解决了长尾问题和类别间难区分问题。
本发明提出的一种基于双分支判别特征神经网络的声音事件检测方法,包括以下步骤:
步骤1、数据预处理:将包含声音信号的数据集进行特征提取,得到log-mel频谱图的数据集,并按照一定比例将其分为训练集、测试集和验证集;
步骤2、建立双分支判别特征网络模型,所述的双分支判别特征网络模型包括双分支采样、特征提取、双分支的特征融合和损失融合:步骤如下:
2-1)分别对训练集进行均匀采样和逆采样从而得到两个分支的训练样本;
2-2)采用基于通道注意力机制融合语义特征和空间特征的CNN-Transformer模型对步骤2-1)获得的两个分支的训练样本的声音事件特征进行提取,得到两个分支的特征;
2-3)采用随着学习过程逐渐减小的超参数将步骤2-2)得到的两个分支的特征进行融合,根据融合后的特征分别计算两个分支的损失函数,根据损失函数反向传播修改模型的参数,完成模型的训练;
步骤3、将测试集和验证集作为训练后的模型的输入,该模型的输出即为该数据集的声音事件检测的结果,包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。
进一步讲,本发明所述的声音事件检测方法,其中:
所述步骤1中,提取log-mel频谱图时将所有音频剪辑都转换为单声道,并重新采样为32kHz;之后使用具有1024个样本的汉宁窗口和320个样本的的短时傅里叶变换来提取谱图,使得该谱图在1秒钟内产生100帧。
所述步骤1中,将所述的log-mel频谱图的数据集分为训练集、测试集和验证集的划分的比例可采取深度学习通用的8:1:1,也可根据需要自行划分;
所述步骤2-1)中,设定训练集D={(x1,y1)…(xn,yn)},其中n是训练集中样本的数量;(xk,yk),且k∈(1,…n),表示样本的输入和该样本所对应的标签;所述的均匀采样中,训练集中的每个样本在一个训练时段内以相同的概率采样一次,该训练集中样本采样的概率都为将均匀采样的样本输入和该样本所对应的标签记为(xu,yu);所述的逆采样中,基于类别数量的倒数对训练集D中的样本进行采样,每一个类别的采样概率如下所示:
式(1)中,pi代表第i个类取样的概率,ni代表第i个类的样本数量,c代表训练集类别的数量;将逆采样的样本输入和该样本所对应的标签记为(xr,yr);两个分支的样本输入和样本所对应的标签包括(xu,yu)和(xr,yr)。
所述步骤2-2)中,采用CNN-Transformer模型,先通过CNN网络提取log-mel频谱图的帧级特征,然后使用Transformer进行帧间关系建模,提取log-mel频谱图的时域特征;基于步骤2-1)获得的两个分支的样本输入和样本所对应的标签(xu,yu)和(xr,yr)所提取到的两个分支特征分别为fu和fr。
本发明在传统CNN-Transformer的基础上,通过通道注意力机制将CNN结构进行改进,使特征提取模块能够提取到判别特征,从而解决类别间难区分的问题。所述的CNN网络结构分为四个层,随着层数的增加提取的特征逐渐加深;第一层提取的是相对浅层的特征,第四层提的是相对深层的特征;所述的CNN网络是一个从下向上的结构,即由第四层所提取的特征来指导第三层的特征提取,由第三层所提取的特征指导第二层的特征提取,以此类推。本发明依据通道注意力机制模块来指导判别特征的筛选,从而达到深层特征指导浅层特征选择其更具判别性的特征的目的;
所述步骤2-3)中,基于步骤2-2)所得到的两个分支的特征fu和fr;使用超参数λ对两个分支的特征进行融合,如下所示:
z=λfu+(1-λ)fr (2)
式(2)中,fu和fr分别代表两个分支所提取到的特征,λ如式(3)所示:
式(3)中,T代表当前所处的epoch,Tmax代表训练模型所设置的最大epoch;使用超参数λ对两个分支的损失函数进行融合,如下所示:
L=λLu(p,yu)+(1-λ)Lr(p,yr) (4)
式(4)中,λ的值由式(3)所决定,p为式(2)中z通过sigmoid激活所得到的结果,Lu和Lr分别为两个分支的损失函数。
与现有技术相比,本发明的有益效果是:
通过双分支判别特征网络同时解决了现有声音事件检测数据集中存在的长尾和类别间难区分的问题与现有技术相比有更好的预测效果,能获得全局性更优、泛化性能更好的建模结果。
附图说明
图1本发明设计的双分支判别网络的模型图;
图2是本发明基于通道注意力机制的CNN模型结构图;
图3是本发明的设计流程图;
图4是本发明模型采用的注意力机制原理图;
图5是本发明的输出效果图。
具体实施方式
为了更好地理解本发明的技术方案,下面结合附图及具体实施方式详细介绍本发明。
本发明提出的一种基于双分支判别特征网络的声音事件检测方法的设计构思,通过双分支网络同时解决长尾问题和类别间难区分的问题。
如图1所示,本发明中设计的模型主要包括采样,特征提取和分支融合三个部分。通过对数据集进行均匀采样和逆采样作为模型两个分支的输入。采用基于通道注意力机制融合深层浅层特征的CNN-Transformer模型来获取声音事件更具判别性的特征。该模型提取判别特征的原理在于模型浅层特征富含空间特征但缺少语义特征的指导,而模型的深层特征随具有很强的语义信息但缺乏更精细的空间信息。因此采用通过通道注意力机制使深层特征利用自己所带的语义信息来指导浅层特征空间信息的选择,从而结合两种特征的优势获得更具判别性的特征,解决类别间难区分的问题。分支融合部分通过随着学习过程逐渐减小的超参数λ将两个分支的特征进行融合,均衡了分类器的权重。从而同时解决了长尾问题和类别间难区分问题。
下面以DCASE2017任务四数据集为研究材料对本发明基于三分支特征融合神经网络的声音事件检测方法进行描述,如图2所示,包括以下步骤:
步骤1、数据预处理:将包含声音信号的数据集进行特征提取,得到log-mel频谱图的数据集,该数据集包括51172个训练数据,488个测试数据和1100个验证数据,数据包含17个类;每次训练时Mini-batch的大小设置为64,使用二进制交叉熵损失函数,学习速率为0.0001,进行100个epoch的训练,分类评估得分采用F-score分类评分标准。在提取log-mel频谱图时,将所有音频剪辑都转换为单声道,并重新采样为32kHz;之后使用具有1024个样本的汉宁窗口和320个样本的短时傅里叶变换来提取频谱图,使得该频谱图在1秒钟内产生100帧。
步骤2、建立双分支判别特征网络模型,所述的双分支判别特征网络模型包括双分支采样、特征提取、双分支的特征融合和损失融合:步骤如下:
2-1)分别对训练集进行均匀采样和逆采样从而得到两个分支的训练样本;
首先,设定训练集D={(x1,y1)…(xn,yn)},其中n是训练集中样本的数量;(xk,yk),且k∈(1,…n),表示样本的输入和该样本所对应的标签。
所述的均匀采样中,训练集中的每个样本在一个训练时段内以相同的概率采样一次,该训练集中样本采样的概率都为该采样方法得到的每个epoch的输入样本和该样本所对应的标签(xu,yu)。
所述的逆采样中,本发明中提出一个基于类别数量的倒数对训练集D中的样本进行采样的方法,具体的每一个类别的采样概率如下所示:
式中,pi代表第i个类取样的概率,ni代表第i个类的样本数量,c代表训练集类别的数量;该采样方法得到的每个epoch的输入样本和该样本所对应的标签为(xr,yr)。
至此得到了两个分支的样本输入和样本所对应的标签,包括(xu,yu)和(xr,yr)
2-2)该步骤采用CNN-Transformer来提取数据的深层特征。CNN-Transformer结合CNN和Transformer的优点,先通过CNN提取时log-mel频谱图的帧级特征,然后使用Transformer进行帧间关系建模,提取log-mel频谱图的时域特征。
本发明采用一个9层的CNN来提取时频谱图的帧级别特征,这个9层CNN由4个卷积块组成,其中每个卷积块由2个内核大小为3×3的卷积层组成。在每个卷积层之后再使用批量归一化和ReLU非线性函数。通过4个卷积块后分别映射为64、128、256和512维的特征。并且在每个卷积块之后应用2×2的平均池化方法来提取高级特征。并采用Transformer编码器的形式进一步提取CNN所提取特征的时域特征。
如图3所示本发明将CNN网络结构分为四层,随着层数的增加提取的特征逐渐加深;就是说第一层提的是相对浅层特征,第四层提的是相对深层的特征。本发明提出的提取判别特征的CNN模型,是一个从下向上的结构。就是通过通道注意力机制由第四层所提取的特征来指导第三层的特征提取,由第三层所提取的特征指导第二层的特征提取以此类推。
如图4所示为本发明所采用的通道注意力机制,设本发明所用到的浅层特征为fs,深层特征为fd。fs和fd首先通过1个1*1的卷积层,将两种特征通道数统一调整为256,之后将两种特征通过concate方式融合得到特征fc。
再将fc进行全局池化整合特征信息使特征在类内更为紧凑,之后再通过有2个1*1的卷积层和1个relu层的卷积块将特征的通道数从512再调整到256并且优化fc使其对分类更加有利。
将fc通过sigmoid函数得到通道权重系数α,
α=Sigmoid(fc)
将α与浅层特征fs相乘的结果fD就是深层特征指导浅层特征提取的浅层特征中的判别特征。
fD=αfs
如下式所示,将判别特征fD和深层特征fd相加就是更具判别特征的深层特征,该特征兼顾了空间信息如语义信息。
f=fD+fd
最终基于步骤2-1)获得的两个分支的样本输入和样本所对应的标签(xu,yu)和(xr,yr)所提取到的两个分支特征分别为fu和fr。
2-3)采用随着学习过程逐渐减小的超参数λ将步骤2-2)得到的两个分支的特征fu和fr进行融合。根据融合后的特征分别计算两个分支的损失函数,根据损失函数反向传播修改模型的参数,完成模型的训练。具体过程是:
特征融合:使用超参数λ对两个分支的特征进行融合如下所示:
z=λfu+(1-λ)fr
其中,fu和fr分别代表两个分支所提取到的特征,λ如下式所示;
其中,T代表当前所处的epoch,Tmax代表训练模型所设置的最大epoch。
这种特征融合方式使模型在特征学习的前面学习局部特征更关注数据集的通用特征,在后面学习与类别有关的特征时更加关注尾部类的特征。
损失函数融合:使用超参数λ对两个分支的损失函数进行融合如下所示:
L=λLu(p,yu)+(1-λ)Lr(p,yr)
其中,λ的值由式所决定,p为式z=λfu+(1-λ)fr中z通过sigmoid激活所得到的结果,Lu和Lr分别为两个分支的损失函数。
本发明中,上述损失函数融合方法使神经网络在学习过程中从关注特征学习逐渐到分类器学习,并且保证在训练过程中不同目标的两个分支都能在整个训练过程中不断更新,避免两个过程中的相互影响。超参数λ随着训练中epoch的增加而减少,其从使损失先关注均匀采样分支,再关注逆采样分支。该种分支融合的方法使模型在平衡分类器其权重的同时,保持模型在特征学习方面对判别性特征的学习。使模型能够提取到尾部类和难区分类的判别性特征,并且一定程度上提升了尾部类在分类器中的权重,促进了模型的分类学习。
模型每次训练时Mini-batch的大小设置为64,使用二进制交叉熵损失函数,学习速率为0.0001,进行100个epoch的训练,分类评估得分采用F-score分类评分标准。
步骤3、针对DCASE2017任务四数据集中的测试集和验证集,通过上述训练好的双分支判别特征网络模型得到对应的17个输出概率,遍历每一个类别的输出,当预测概率超过0.30,则认为该音频包含此类型的音频。得到对应的多声音事件检测结果。
该模型的输出即为该数据集的声音事件检测的结果,包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。如图5所示为模型对验证集中“Y8TSHxF4Bepo_20.000_308.000.wav”音频片段的预测结果,该音频片段是一个10秒的多标签片段。由图5可以直观的看到,本发明提出的模型可以检测到该音频中包含滑板、尖叫和巴士这三种事件类别。并且由图5可以看出本发明提出的模型可以检测到滑板、尖叫和巴士这三类事件发生的起始时间。
采用相同训练集训练的双分支判别融网络模型和单分支CNN-Transformer网络模型的声音事件检测分类结果的对比图如表1所示,其中的分类结果为每一个类别的F1准确率。
由表1可以看出数据集中的尾部类例如汽车防盗器类和倒转蜂鸣声类分类效果有所提升,同时可以看出数据集中的难区分类例如经过的汽车类也有所提升。由此证明通过双分支判别特征网络提高了模型提取尾部类和难区分的类的判别性特征的能力,有效的解决了类别之间难区分的问题。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。
Claims (7)
1.一种基于双分支判别特征神经网络的声音事件检测方法,其特征在于,包括以下步骤:
步骤1、数据预处理:将包含声音信号的数据集进行特征提取,得到log-mel频谱图的数据集,并按照一定比例将其分为训练集、测试集和验证集;
步骤2、建立双分支判别特征网络模型,所述的双分支判别特征网络模型包括双分支采样、特征提取、双分支的特征融合和损失融合:步骤如下:
2-1)分别对训练集进行均匀采样和逆采样从而得到两个分支的训练样本;
2-2)采用基于通道注意力机制融合语义特征和空间特征的CNN-Transformer模型对步骤2-1)获得的两个分支的训练样本的声音事件特征进行提取,得到两个分支的特征;
2-3)采用随着学习过程逐渐减小的超参数将步骤2-2)得到的两个分支的特征进行融合,根据融合后的特征分别计算两个分支的损失函数,根据损失函数反向传播修改模型的参数,完成模型的训练;
步骤3、将测试集和验证集作为训练后的模型的输入,该模型的输出即为该数据集的声音事件检测的结果,包括音频所包含的声音事件类别和发生该事件的起始和终止时间。
2.根据权利要求1所述的声音事件检测方法,其特征在于,所述步骤1中,提取log-mel频谱图时将所有音频剪辑都转换为单声道,并重新采样为32kHz;之后使用具有1024个样本的汉宁窗口和320个样本的短时傅里叶变换来提取谱图,使得该谱图在1秒钟内产生100帧。
3.根据权利要求2所述的声音事件检测方法,其特征在于,所述步骤1中,将所述的log-mel频谱图的数据集分为训练集、测试集和验证集的划分比例为8:1:1。
4.根据权利要求1所述的声音事件检测方法,其特征在于:所述步骤2-1)中,设定训练集D={(x1,y1)…(xn,yn)},其中n是训练集中样本的数量;(xk,yk),且k∈(1,…n),表示样本的输入和该样本所对应的标签;
所述的均匀采样中,训练集中的每个样本在一个训练时段内以相同的概率采样一次,该训练集中样本采样的概率都为将均匀采样的样本输入和该样本所对应的标签记为(xu,yu);
所述的逆采样中,基于类别数量的倒数对训练集D中的样本进行采样,每一个类别的采样概率如下所示:
式(1)中,pi代表第i个类取样的概率,ni代表第i个类的样本数量,c代表训练集类别的数量;将逆采样的样本输入和该样本所对应的标签记为(xr,yr);
两个分支的样本输入和样本所对应的标签包括(xu,yu)和(xr,yr)。
5.根据权利要求1所述的声音事件检测方法,其特征在于:所述步骤2-2)中,采用CNN-Transformer模型,先通过CNN网络提取log-mel频谱图的帧级特征,然后使用Transformer进行帧间关系建模,提取log-mel频谱图的时域特征;基于步骤2-1)获得的两个分支的样本输入和样本所对应的标签(xu,yu)和(xr,yr)所提取到的两个分支特征分别为fu和fr。
6.根据权利要求5所述的声音事件检测方法,其特征在于:所述的CNN网络结构分为四个层,随着层数的增加提取的特征逐渐加深;第一层提取的是相对浅层的特征,第四层提的是相对深层的特征;所述的CNN网络是一个从下向上的结构,即由第四层所提取的特征来指导第三层的特征提取,由第三层所提取的特征指导第二层的特征提取,以此类推;
依据通道注意力机制指导判别特征的筛选,从而达到深层特征指导浅层特征选择。
7.根据权利要求1所述的声音事件检测方法,其特征在于,所述步骤2-3)中,基于步骤2-2)所得到的两个分支的特征fu和fr;使用超参数λ对两个分支的特征进行融合,如下所示:
z=λfu+(1-λ)fr (2)
式(2)中,fu和fr分别代表两个分支所提取到的特征,λ如式(3)所示:
式(3)中,T代表当前所处的epoch,Tmax代表训练模型所设置的最大epoch;
使用超参数λ对两个分支的损失函数进行融合,如下所示:
L=λLu(p,yu)+(1-λ)Lr(p,yr) (4)
式(4)中,λ的值由式(3)所决定,p为式(2)中z通过sigmoid激活所得到的结果,Lu和Lr分别为两个分支的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210490907.5A CN114881212B (zh) | 2022-05-07 | 2022-05-07 | 基于双分支判别特征神经网络的声音事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210490907.5A CN114881212B (zh) | 2022-05-07 | 2022-05-07 | 基于双分支判别特征神经网络的声音事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881212A CN114881212A (zh) | 2022-08-09 |
CN114881212B true CN114881212B (zh) | 2024-09-06 |
Family
ID=82673522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210490907.5A Active CN114881212B (zh) | 2022-05-07 | 2022-05-07 | 基于双分支判别特征神经网络的声音事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881212B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443143A (zh) * | 2019-07-09 | 2019-11-12 | 武汉科技大学 | 多分支卷积神经网络融合的遥感图像场景分类方法 |
CN112036477A (zh) * | 2020-08-28 | 2020-12-04 | 清华大学 | 一种高召回率弱标注声音事件检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517666B (zh) * | 2019-01-29 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
KR102635469B1 (ko) * | 2019-03-18 | 2024-02-13 | 한국전자통신연구원 | 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치 |
CN113256621B (zh) * | 2021-06-25 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN113971815B (zh) * | 2021-10-28 | 2024-07-02 | 西安电子科技大学 | 基于奇异值分解特征增强的少样本目标检测方法 |
-
2022
- 2022-05-07 CN CN202210490907.5A patent/CN114881212B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443143A (zh) * | 2019-07-09 | 2019-11-12 | 武汉科技大学 | 多分支卷积神经网络融合的遥感图像场景分类方法 |
CN112036477A (zh) * | 2020-08-28 | 2020-12-04 | 清华大学 | 一种高召回率弱标注声音事件检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114881212A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4002362A1 (en) | Method and apparatus for training speech separation model, storage medium, and computer device | |
CN112259105B (zh) | 一种声纹识别模型的训练方法、存储介质和计算机设备 | |
CN110400579A (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN109766929A (zh) | 一种基于svm的音频分类方法及系统 | |
CN115101076B (zh) | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN116226372A (zh) | 基于Bi-LSTM-CNN的多模态语音情感识别方法 | |
Liu et al. | Birdsong classification based on multi feature channel fusion | |
Bai et al. | Multimodal urban sound tagging with spatiotemporal context | |
Al-Banna et al. | A novel attention model across heterogeneous features for stuttering event detection | |
CN114881212B (zh) | 基于双分支判别特征神经网络的声音事件检测方法 | |
Tan et al. | Acoustic event detection with mobilenet and 1d-convolutional neural network | |
CN114881213B (zh) | 基于三分支特征融合神经网络的声音事件检测方法 | |
Bai et al. | CIAIC-BAD system for DCASE2018 challenge task 3 | |
CN113539238B (zh) | 一种基于空洞卷积神经网络的端到端语种识别分类方法 | |
Jothi et al. | Speech intelligence using machine learning for aphasia individual | |
Luo et al. | Polyphonic sound event detection based on CapsNet-RNN and post processing optimization | |
Moutti et al. | Cross-linguistic speech emotion recognition using CNNs: a use-case in Greek Theatrical Data | |
CN112466299B (zh) | 一种声音主题识别方法 | |
Krishnendu | Classification Of Carnatic Music Ragas Using RNN Deep Learning Models | |
Rezvani | Intoxication detection from audio using deep learning | |
Mirhassani et al. | Fuzzy decision fusion of complementary experts based on evolutionary cepstral coefficients for phoneme recognition | |
Behrman et al. | Dialect identification of the bengali |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |