CN110827804B - 一种音频帧序列到事件标签序列的声音事件标注方法 - Google Patents
一种音频帧序列到事件标签序列的声音事件标注方法 Download PDFInfo
- Publication number
- CN110827804B CN110827804B CN201911111989.2A CN201911111989A CN110827804B CN 110827804 B CN110827804 B CN 110827804B CN 201911111989 A CN201911111989 A CN 201911111989A CN 110827804 B CN110827804 B CN 110827804B
- Authority
- CN
- China
- Prior art keywords
- sequence
- frame
- layer
- sound
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 238000009499 grossing Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种音频帧序列到事件标签序列的声音事件标注方法,包括如下步骤:步骤S1:从给定音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:根据得到的特征序列,使用三层卷积神经网络提取每帧的抽象特征,并通过双向门限递归单元神经网络提取帧综合特征序列;步骤S3:根据得到的综合特征序列,通过Softmax前馈神经网络层作为注意力机制层,得到注意力特征,并进一步得到事件标签序列;步骤S4:将得到的所有音频片段的声音事件标签序列联合,并进行合并和平滑处理,得到检测结果。本发明使用多任务损失机制,在降低误检测的同时提高事件检出率,改善定位准确度,最后对模型输出进行平滑和合并处理,以显著提高音频文件中声音事件的标注精度。
Description
技术领域
本发明涉及声音标注领域,具体涉及一种音频帧序列到事件标签序列的声音事件标注方法。
背景技术
声音事件标注往往涉及到语音信号的分析与处理中诸多方面的工作。根据研究的侧重点不同,目前的研究工作包含两大块:特征提取与标注定位。前者主要研究如何提取能够较好地刻画目标声音事件的音频特征;后者主要研究如何通过对特征的学习和建模,运用分类,回归等多种方法,进行目标声音事件进行定位。
声音事件的特征通常沿用语音信号在时频域和倒谱域的特征。常用的声音事件特征包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、梅尔能量(Mel-energy)、线性预测倒谱系数(Linear Prediction Cepstral Coefficient,LPCC)等。
传统的音频标注方法一般使用分段标注机制,该机制一般以音频片段为单位先完成音频事件识别,然后再后处理阶段完成音频事件定位。即,先将输入音频按照固定时长,逐帧移动的方式进行切分,提取每个声音片段的音频特征经由分类输出每个音频片段的分类结果。为了定位音频中每个音频事件发生的起止时间,就需要对所有音频片段的分类结果进行后处理,依据置信度逐帧确定每帧的音频事件类别,得到每一帧的声音事件类别后,逐帧合并平滑处理得到最终标注结果。
发明内容
有鉴于此,本发明的目的在于提供一种音频帧序列到事件标签序列的声音事件标注方法,使用多任务损失机制,在降低误检测的同时提高事件检出率,改善定位准确度,最后对模型输出进行平滑和合并处理,以显著提高音频文件中声音事件的标注精度。
为实现上述目的,本发明采用如下技术方案:
一种音频帧序列到事件标签序列的声音事件标注方法,包括如下步骤:
步骤S1:从给定音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:根据得到的特征序列,使用三层卷积神经网络提取每帧的抽象特征,并通过双向门限递归单元神经网络提取帧综合特征序列;
步骤S3:根据得到的综合特征序列,通过Softmax前馈神经网络层作为注意力机制层,得到注意力特征,并进一步得到事件标签序列;
步骤S4:将得到的所有音频片段的声音事件标签序列联合,并进行合并和平滑处理,得到标注结果。
进一步的,所述步骤S1具体为:
步骤S11:将给定音频文件按照时长1.2秒切分为待检测的声音分段,每个声音片段包含61个音频帧,每帧时长40ms;
步骤S12:对每帧提取123维的梅尔能量特征,构成帧特征序列。
进一步的,所述步骤S2具体为:
步骤S21:将S1中得到的61帧123维大小的浅层梅尔能量特征序列,使用三层卷积神经网络提取每帧的抽象特征;
步骤S22:通过双向门限递归单元神经网络提取帧综合特征序列。
进一步的,所述步骤S3具体为:
步骤S31:使用Softmax前馈神经网络层作为注意力机制层。将S2得到的61帧综合特征,对每帧的所有通道分别进行Softmax和Sigmoid操作,获得与输入大小一致的两个输出A和B;
步骤S32:将A和B进行点乘,得到注意力特征;
步骤S33:将声音事件检测视为分类问题,其定位问题作为回归问题,分类层和回归层得到对应的分类损失和回归损失;
步骤S34:将分类损失和回归损失联合起来做多任务损失学习,输出61帧声音事件标签序列。
进一步的,定义全连接层Softmax前馈神经网络层的注意力输出为Zatt(t),包括分类注意力输出Zclass_att(t)和回归注意力输出Zreg_att(t)
采用Sigmoid激活函数得到分类和回归结果:
Oclass(t)=Sigmoid(Zclass_att(t))
Oreg(t)=Sigmoid(Zreg_att(t))。
进一步的,所述步骤S4具体为:
步骤S41:对所有音频片段的声音事件标签序列联合后,进行合并和平滑处理;
步骤S42:相邻帧中同类别事件合并后,删除事件时间长度小于设定时间的事件;
步骤S43:输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合。
本发明与现有技术相比具有以下有益效果:
本发明使用多任务损失机制,在降低误检测的同时提高事件检出率,改善定位准确度,最后对模型输出进行平滑和合并处理,以显著提高音频文件中声音事件的标注精度。
附图说明
图1是本发明一实施例中ATT-MCL-CBG网络结构图;
图2是本发明一实施例中方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图2,本发明提供一种音频帧序列到事件标签序列的声音事件标注方法,包括如下步骤:
步骤S1:将给定音频文件按照时长1.2秒切分为待检测的声音片段,每个声音片段包含61个音频帧,每帧时长40ms,然后每帧提取123维的梅尔能量特征,构成帧特征序列;
步骤S2:根据得到的61帧123维大小的浅层梅尔能量特征序列,使用三层积神经网络提取每帧的抽象特征,然后通过双向GRU提取综合特征;
步骤S3:使用Softmax前馈神经网络层作为注意力机制层。将S2得到的61帧综合特征,对每帧的所有通道分别进行Softmax和Sigmoid操作,获得与输入大小一致的两个输出A和B,再将A和B进行点乘,得到注意力特征。将声音事件检测视为分类问题,其定位问题作为回归问题,分类层和回归层得到对应的分类损失和回归损失,最后将两个损失联合起来做多任务损失学习,输出61帧声音事件标签序列;
步骤S4:对所有音频片段的声音事件标签序列联合后,进行合并和平滑处理,输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合。
在本实施例中,所述步骤S1在图1中表现为输入层,其中Xt-1,Xt,Xt+1分别表示相邻三个输入帧,具体包括以下步骤:
S11:将给定音频文件按照时长1.2秒切分为若干待检测的声音片段,每个声音片段包含61个音频帧,每帧时长40ms,然后每帧提取123维的梅尔能量特征,构成帧特征序列。
梅尔能量特征将线性频谱映射到基于听觉感知的Mel非线性频谱中,一般频率f转换到Mel频率计算公式为:
提取该特征时,先将声音信号经过预加重、分帧和加窗处理后,计算其快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱,再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对功率谱使用向量乘法,最后计算得到梅尔能量特征。
在本实施例中,所述步骤S2在图1中表现为卷积层(ConvNet层)和双向GRU层(BiGRU层)。在卷积层中,为了保持输入整个声音频谱图的时间分辨率,仅对频谱轴进行池化而不对时间轴进行操作,具体包括以下步骤:
S21:第一层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充为相同的方式,再通过大小为1×5的最大池化层降低特征维度。
S22:第二、三层,通过卷积层提取抽象特征,激活函数为Relu,使用128个卷积核,大小为(3,3),边界填充为相同的方式,并通过大小为1×2的最大池化层降低特征维度。
S23:第一、二层(双向GRU层),通过双向GRU层提取特征,激活函数为tanh,使用32个双向GRU神经元。
在本实施例中,所述步骤S3在图1中表现为注意力层(soft层)和多任务层(Class+Reg层)。具体的对S2中每帧特征的所有通道分别进行Softmax和Sigmoid,获得与输入大小一致的两个输出A和B,再将A和B进行点乘,得到注意力特征,再使用全连接层将注意力特征输出成每一帧的分类结果。定义全连接层Softmax前馈神经网络层的注意力输出为Zatt(t),包括分类注意力输出Zclass_att(t)和回归注意力输出Zreg_att(t)。使用Sigmoid激活函数按顺序输出61帧的|C|维分类和2|C|维回归预测序列结果:
Oclass(t)=Sigmoid(Zclass_att(t))
Oreg(t)=Sigmoid(Zreg_att(t))
具体包括以下步骤:
S31:给定一个和任务相关的查询向量q,注意力变量z∈[1,N]表示被选择信息的索引位置,即z=i表示选择了第i个输入信息。采用“软性”信息选择机制。首先计算在给定的q和X下,选择第i个输入信息的概率αi:
其中αi称为注意力分布(Attention Distribution),注意力打分函数s(Xi,q)。注意力打分函数采用点积模型计算方式,如下式所示。
注意力分布αi可以解释为在上下文查询q时,第i个信息受关注的程度。采用一种“软性”的信息选择机制对输入信息进行编码,如下式所示,这种机制就称为软性注意力机制(SoftAttention Mechanism)。
S32:将声音事件检测视为分类问题,其定位问题作为回归问题,分类层和回归层得到对应的分类损失和回归损失,分类损失使用交叉熵损失,回归损失(Reg_L)使用修正余弦相似度,最后将两个损失联合起来做多任务损失学习。
综合声音事件分类和回归损失,在一个面向声音事件检测的多任务损失网络中,其训练过程是最小化如下损失函数:
其中,Eclass(θ),E(θ)acos分别表示交叉熵损失,损失修正余弦相似度损失,λccos,λacos分别表示其权重系数,设置λclass=0.8和λacos=0.1没有置信度损失。
Ecross(θ)的计算公式如下:
修正余弦相似度的损失为:
在本实施例中,所述步骤S4具体包括以下步骤:
对所有音频片段的声音事件标签序列联合后,进行合并和平滑处理。相邻帧中同类别事件合并后,删除事件时间长度小于设定时间的事件,同时两个可能目标段之间的无效帧小于等于设定帧时,这两段会被认为是一段。输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (3)
1.一种音频帧序列到事件标签序列的声音事件标注方法,其特征在于,包括如下步骤:
步骤S1:从给定音频文件中提取梅尔能量特征,并将其处理成特征序列;
步骤S2:根据得到的特征序列,使用三层卷积神经网络提取每帧的抽象特征,并通过双向门限递归单元神经网络提取帧综合特征序列;
步骤S3:根据得到的综合特征序列,通过Softmax前馈神经网络层作为注意力机制层,得到注意力特征,并进一步得到事件标签序列;
所述步骤S1具体为:
步骤S11:将给定音频文件按照时长1.2秒切分为待检测的声音分段,每个声音片段包含61个音频帧,每帧时长40ms;
步骤S12:对每帧提取123维的梅尔能量特征,构成帧特征序列;所述步骤S2具体为:
步骤S21:将S1中得到的61帧123维大小的浅层梅尔能量特征序列,使用三层卷积神经网络提取每帧的抽象特征;
步骤S22:通过双向门限递归单元神经网络提取帧综合特征序列;
所述步骤S3具体为:
步骤S31:使用Softmax前馈神经网络层作为注意力机制层;
将S2得到的61帧综合特征,对每帧的所有通道分别进行Softmax和Sigmoid操作,获得与输入大小一致的两个输出A和B;
步骤S32:将A和B进行点乘,得到注意力特征;
步骤S33:将声音事件检测视为分类问题,其定位问题作为回归问题,分类层和回归层得到对应的分类损失和回归损失;
步骤S34:将分类损失和回归损失联合起来做多任务损失学习,输出61帧声音事件标签序列;
步骤S4:将得到的所有音频片段的声音事件标签序列联合,并进行合并和平滑处理,得到标注结果。
3.根据权利要求1所述的一种音频帧序列到事件标签序列的声音事件标注方法,其特征在于,所述步骤S4具体为:
步骤S41:对所有音频片段的声音事件标签序列联合后,进行合并和平滑处理;
步骤S42:相邻帧中同类别事件合并后,删除事件时间长度小于设定时间的事件;
步骤S43:输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111989.2A CN110827804B (zh) | 2019-11-14 | 2019-11-14 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111989.2A CN110827804B (zh) | 2019-11-14 | 2019-11-14 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827804A CN110827804A (zh) | 2020-02-21 |
CN110827804B true CN110827804B (zh) | 2022-06-14 |
Family
ID=69555161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911111989.2A Expired - Fee Related CN110827804B (zh) | 2019-11-14 | 2019-11-14 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827804B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763988B (zh) * | 2020-06-01 | 2024-05-28 | 中车株洲电力机车研究所有限公司 | 机车司机室监控信息与lkj监控信息的时间同步方法及系统 |
CN112199549A (zh) * | 2020-09-08 | 2021-01-08 | 北京数美时代科技有限公司 | 基于弱标签标注的音频事件监测方法、装置、计算机设备 |
CN111933188B (zh) * | 2020-09-14 | 2021-02-05 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112447189A (zh) * | 2020-12-01 | 2021-03-05 | 平安科技(深圳)有限公司 | 语音事件检测方法、装置、电子设备及计算机存储介质 |
CN112735466B (zh) * | 2020-12-28 | 2023-07-25 | 北京达佳互联信息技术有限公司 | 一种音频检测方法及装置 |
CN113379875B (zh) * | 2021-03-22 | 2023-09-29 | 平安科技(深圳)有限公司 | 卡通角色动画的生成方法、装置、设备及存储介质 |
CN113140226B (zh) * | 2021-04-28 | 2022-06-21 | 桂林电子科技大学 | 一种采用双Token标签的声事件标注及识别方法 |
CN113299314B (zh) * | 2021-07-27 | 2021-11-02 | 北京世纪好未来教育科技有限公司 | 一种音频事件识别模型的训练方法、装置及其设备 |
CN113593603A (zh) * | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
CN114974303B (zh) * | 2022-05-16 | 2023-05-12 | 江苏大学 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
CN115331697B (zh) * | 2022-10-14 | 2023-01-24 | 中国海洋大学 | 多尺度环境声音事件识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223715B (zh) * | 2019-05-07 | 2021-05-25 | 华南理工大学 | 一种基于声音事件检测的独居老人家中活动估计方法 |
-
2019
- 2019-11-14 CN CN201911111989.2A patent/CN110827804B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN110827804A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827804B (zh) | 一种音频帧序列到事件标签序列的声音事件标注方法 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
Sang et al. | Convolutional recurrent neural networks for urban sound classification using raw waveforms | |
CN108053836B (zh) | 一种基于深度学习的音频自动化标注方法 | |
Deb et al. | Emotion classification using segmentation of vowel-like and non-vowel-like regions | |
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN112183107A (zh) | 音频的处理方法和装置 | |
Lei et al. | BAT: Block and token self-attention for speech emotion recognition | |
Jahangir et al. | Convolutional neural network-based cross-corpus speech emotion recognition with data augmentation and features fusion | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN115641533A (zh) | 目标对象情绪识别方法、装置和计算机设备 | |
Iqbal et al. | Stacked convolutional neural networks for general-purpose audio tagging | |
CN114882914A (zh) | 混叠音处理方法、装置和存储介质 | |
Shen et al. | A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning | |
Arya et al. | Speech based emotion recognition using machine learning | |
Liu et al. | Environmental sound classification based on stacked concatenated DNN using aggregated features | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
Chen et al. | An intelligent nocturnal animal vocalization recognition system | |
CN113537113B (zh) | 基于复合神经网络的水声目标识别方法 | |
Cakir | Multilabel sound event classification with neural networks | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
Mane et al. | Identification & Detection System for Animals from their Vocalization | |
Li et al. | MPAF-CNN: Multiperspective aware and fine-grained fusion strategy for speech emotion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220614 |