CN111341319B - 一种基于局部纹理特征的音频场景识别方法及系统 - Google Patents
一种基于局部纹理特征的音频场景识别方法及系统 Download PDFInfo
- Publication number
- CN111341319B CN111341319B CN201811559040.4A CN201811559040A CN111341319B CN 111341319 B CN111341319 B CN 111341319B CN 201811559040 A CN201811559040 A CN 201811559040A CN 111341319 B CN111341319 B CN 111341319B
- Authority
- CN
- China
- Prior art keywords
- mel
- time
- ltp
- fbank
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000012805 post-processing Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 3
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000008447 perception Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
Description
技术领域
本发明涉及音频场景识别领域,更具体地说,本发明涉及一种基于局部纹理特征的音频场景识别方法及系统。
背景技术
场景自动感知是新生代智能化设备的迫切需求,它使得硬件设备能够利用有关场景的先验知识,调整工作模式,达到最佳工作状态。它目前成为移动智能终端、自动驾驶、机器人导航等领域的应用热点。音频场景识别则是通过识别场景产生的声学内容,判断感知主体所处的环境,并对特定的音频场景进行标注(参考文献[1]:Bregman A..Auditoryscene analysis:the perpetual organization of sound.MIT Press,1990.参考文献[2]:Barchiesi D.,Giannoulis D.,Stowell D.,Plumbley M.D..Acoustic sceneclassification:classifying environments from the sounds they produce.IEEESignal Processing Magazine,2015,32(3):16-34.)。
目前,研究人员通常从两个方面展开音频场景识别的研究。其一,在认知心理学方面,研究人耳对于音频场景的认知过程以及如何理解音频场景。其二,在计算模型方面,试图结合信号处理和机器学习的方法,模仿人类的声音感知过程,从复杂音频信号中分辨出“在什么时间、什么地点发生了什么事件”。
在音频特征方面,多数研究工作是从人耳对声音高低频的听觉感知差异性出发提取帧级别的短时特征,并没有引入与音频场景或事件相关时频特性(参考文献[3]:EronenAJ,Peltonen V T,Tuomi J T,et al.Audio Based Context Recognition.IEEETransactions on Audio Speech&Language Processing,2006,14(1):321-329.参考文献[4]:Hwang K.,Lee Y..Environmental audio scene and activity recognitionthrough mobile based crowd sourcing.IEEE Transactions on ConsumerElectronics.2012,58(2):700–705.),而基于声学事件等高级语义特征的音频场景识别方法需要根据特定场景多次建模(参考文献[5]:Heittola T.,Mesaros A.,Eronen A.,Virtanen T..Audio context recognition using audio event histogram.18thEuropean Signal Processing Conference,Aalborg,Denmark,2010:1272–1276.),计算复杂度高,且在有限先验知识的条件下,无法准确判决复杂音频出现的实际场景。因此,需要引入鲁棒性更强、区分性更好的特征,以实现对音频场景信息的有效表征。
音频场景识别目前成为移动智能终端、自动驾驶、机器人导航等领域的应用热点。而音频特征对于场景识别性能的提升具有至关重要的作用,多数研究工作是从人耳对声音高低频的听觉感知差异性出发提取帧级别的短时特征,无法引入丰富的与场景相关的时频信息,而基于声学事件等高级语义特征的识别方法需要根据特定场景多次建模,计算复杂度高,识别准确率低。
发明内容
本发明的目的在于克服上述技术缺陷,从音频纹理角度出发对音频场景识别问题展开研究,提出了一种基于局部纹理特征的音频场景识别方法,该方法鉴于音频特征在场景识别过程中具有至关重要的作用,围绕音频场景特征来进行。
为了实现上述目的,本发明提出了一种基于局部纹理特征的音频场景识别方法,所述方法包括:
将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。
作为上述方法的一种改进,所述预先训练得到的时延深度神经网络模型的训练步骤包括:对训练数据集的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后作为输入特征,结合已知的场景标签对时延深度神经网络模型进行训练和测试;得到训练好的时延深度神经网络模型;
作为上述方法的一种改进,所述训练步骤具体包括:
步骤1-1)对训练数据集的每个音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤1-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤1-3)将Mel-fbank特征和LTP特征进行融合,并对融合后的特征进行全局均值方差归一化,得到用于模型训练的输入特征;
步骤1-4)构建用于音频场景识别的时延深度神经网络模型,该模型将初始输入层和隐藏层的节点进行多帧扩展,每一层可以采用不同的时间尺度来学习更深层次的上下文信息;
步骤1-5)将步骤1-3)得到的输入特征输入步骤1-4)构建的TDNN模型,以交叉熵为训练准则,并利用随机梯度下降法进行反向传播训练,反复迭代得到TDNN模型;
步骤1-6)利用测试数据对TDNN模型进行测试,测试通过后得到训练好的TDNN模型。
作为上述方法的一种改进,所述步骤1-2)具体包括:
步骤1-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc;
步骤1-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
其中,
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤1-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
LTP={LTPP,R,+(r),LTPP,R,-(r)} (6)
作为上述方法的一种改进,所述时延深度神经网络模型的输入层包括当前帧和前后各扩展4帧,共9帧特征;所述时延深度神经网络模型的隐藏层有4层,每层均有256个节点;第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点;其它层不做扩展;隐藏层采用ReLU作为激活函数;所述时延深度神经网络模型的输出层则采用sigmoid函数。
作为上述方法的一种改进,所述将待识别的音频信号进行预处理后逐帧提取基于Mel-fbank特征和描述局部纹理的LTP特征的步骤具体包括:
步骤2-1)对待识别的音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤2-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤2-3)将Mel-fbank特征和LTP特征融合在一起,并对融合后的特征进行全局均值方差归一化,得到输入特征。
作为上述方法的一种改进,所述步骤2-2)具体包括:
步骤2-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc;
步骤2-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
其中,
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤2-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
LTP={LTPP,R,+(r),LTPP,R,-(r)} (6)
作为上述方法的一种改进,所述采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签具体为:计算后验概率的对数值,然后将输入音频片段的所有帧对应各个场景下的对数值相加得到累加对数概率值,将累加对数概率值最大者对应的音频类型作为该段音频的场景标签。
一种基于局部纹理特征的音频场景识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优势在于:本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
附图说明
图1是本发明的音频场景识别方法的流程图;
图2是本发明的基于局部纹理模式的特征提取流程图。
具体实施方式
下面结合附图对本发明进行详细的说明。
与纯净语音和音乐信号相比,实际音频场景存在更为复杂的背景噪声和干扰声,不同场景的频谱结构具有复杂多样性,同一种场景类型的音频之间也会呈现不同的时频动态特性。将相同场景的不同音频信号语谱图进行对比可以发现,虽然声学事件和背景噪声的能量或发生次序等略有差别,但其频谱的纹理结构较为接近。将不同场景下音频的语谱图进行对比,可以发现不同场景的音频纹理结构具有明显的区分性,尤其是低频部分的频谱纹理结构差异非常明显。
因此,受图像纹理特征启发,本发明的方法从音频纹理特征的角度对音频的局部时频特性进行研究。由于音频场景识别领域最常见的梅尔频率倒谱系数的倒谱提取过程中会去除参数间的相关性,而原始音频频谱中存在较大冗余,因此该方法基于对数梅尔尺度滤波器组系数(Log Mel-frequency filter bank coefficients,Mel-fbank)基础上采用局部模式方法从音频纹理的角度对音频场景的局部时频特性进行研究。而且在真实声学环境下,背景噪声能量较强,音频场景处于较低信噪比的条件下,Mel-fbank时频谱分布趋于均匀,如果采用常见的局部二值模式方法提取音频纹理信息,其场景识别性能会受到一定影响。为此,本发明采用局部三值模式(Local Ternary Patterns,LTP)方法对音频纹理结构进行了提取。
本发明的音频场景识别方法的如图1所示,该方法主要分为模型训练和识别阶段两个阶段。在训练阶段,首先对训练数据集中的音频信号进行分帧、加窗等预处理,并逐帧提取基于Mel-fbank和局部纹理模式的特征。接下来,利用训练数据对时延深度神经网络(Time-Delay Neural Network,TDNN)模型进行训练。在识别阶段,将每一帧待识别音频特征送入到训练好神经网络模型,计算各个音频场景类型对应的后验概率。最终,依据后处理决策机制获得整个待识别音频片段相应的音频场景标签。其中,特征提取模块采用LTP方法基于Mel-fbank特征的局部纹理进行提取,同时联合传统特征来共同表征不同场景下的音频时频特性。
音频场景特征的具体提取过程如图2所示。首先以40ms帧长、20ms帧移的方式对音频信号进行分帧、加汉宁窗等,得到每帧音频时域信号。接下来利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波。对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数。
在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心点,定义一个半径为R的环形邻域。邻域中P个时频点均匀地分布在圆周上。假设邻域的局部纹理特征用T来表示,则T可以用该邻域上P+1个时频点的函数t(.)来表示:
T=t(fc,f0,f1,...,fP-1) (1)
其中,fc为中心时频点的Mel-fbank特征值,fp,p=0,1,…,P-1为邻域中P个时频点对应的Mel-fbank特征值。然而在设计函数t(.)时,还需防止所获得的局部纹理特征T受到Mel-fbank能量的缩放或偏移所影响。为了更直观地在邻域时频点中获取局部纹理信息,可以利用邻域时频点与中心时频点之间的Mel-fbank能量差异来重新定义局部纹理特征T如下,
其中,
r为设定的区间阈值。根据实际场景识别性能结果,r=5。
该符号函数sign(fp-fc)利用三值表示方式粗略地表征了邻域时频点fp与中心时频点fc之间的Mel-fbank能量差异。在此基础上,LTP则直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征。LTP实际计算时将其进行拆分,形成正负两个序列的二值编码,最后加以连接,如式(4)、(5)和(6)所示:
LTPP,T={LTPP,R,+(r),LTPP,R,-(r)} (6)
根据公式(4)、(5)计算十进制LTP值时,邻域时频点f0初始位置和其他邻域时频点fp(p≠0)的排列次序对音频场景识别性能影响不大,因此将左上角固定为f0初始位置,按照顺时针方向选取其他邻域时频点。那么,利用上述方法每一帧音频数据中将会计算得到80维LTP特征。
最终,本发明的方法将Mel-fbank特征和局部纹理特征LTP融合在一起,并对所有特征进行全局均值方差归一化,得到用于后端模型训练的输入特征。
通过上述方法获得音频特征后,后端模型采用TDNN对音频场景进行识别。TDNN将初始输入层和隐藏层的节点进行多帧扩展,每一层可以采用不同的时间尺度来学习更深层次的上下文信息。受益于其结构上的时序关联性,TDNN可以直接从音频局部纹理特征中对声音场景进行建模。TDNN共包括4个隐藏层,每层均有256个节点。其中,输入层包括当前帧和前后各扩展4帧,共9帧特征;第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点;其他层不做扩展。隐藏层采用ReLU作为激活函数,输出层则采用sigmoid函数。网络训练以交叉熵为目标准则,并利用随机梯度下降法进行反向传播训练。
基于Mel-fbank和LTP局部纹理的音频特征通过TDNN模型参数调优和训练后,得到最佳的网络参数。在识别阶段,对输入音频每帧提取音频特征,并利用训练完成的深度神经网络模型输出每一帧特定音频场景的后验概率值。接下来,对这些概率值求取对数,缩小概率数据之间的动态范围。然后将输入音频片段的所有帧对应各个场景下的对数概率值相加,找到累加对数概率值最大者对应的音频类型作为该段音频的场景标签。
训练阶段:
1)对训练数据集的音频信号进行分帧、加窗等预处理;
2)逐帧提取基于Mel-fbank和描述局部纹理的LTP特征;
3)根据所提取的特征和对应的配置参数对TDNN模型进行训练。
识别阶段:
1)对待识别数据集的音频信号进行与训练阶段相似的预处理和特征提取;
2)将所得每一帧待识别音频特征送入训练好的神经网络模型;
3)逐帧计算输入特征对应于不同音频场景类型的后验概率;
4)采用一定的后处理决策机制获取待识别音频片段对应的音频场景标签。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于局部纹理特征的音频场景识别方法,所述方法包括:
将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签;
所述预先训练得到的时延深度神经网络模型的训练步骤包括:对训练数据集的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后作为输入特征,结合已知的场景标签对时延深度神经网络模型进行训练和测试;得到训练好的时延深度神经网络模型;
所述训练步骤具体包括:
步骤1-1)对训练数据集的每个音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤1-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤1-3)将Mel-fbank特征和LTP特征进行融合,并对融合后的特征进行全局均值方差归一化,得到用于模型训练的输入特征;
步骤1-4)构建用于音频场景识别的时延深度神经网络模型,该模型将初始输入层和隐藏层的节点进行多帧扩展,每一层可以采用不同的时间尺度来学习更深层次的上下文信息;
步骤1-5)将步骤1-3)得到的输入特征输入步骤1-4)构建的TDNN模型,以交叉熵为训练准则,并利用随机梯度下降法进行反向传播训练,反复迭代得到TDNN模型;
步骤1-6)利用测试数据对TDNN模型进行测试,测试通过后得到训练好的TDNN模型。
2.根据权利要求1所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述步骤1-2)具体包括:
步骤1-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc;
步骤1-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
其中,
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤1-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
LTP={LTPP,R,+(r),LTPP,R,-(r)} (6)
3.根据权利要求2所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述时延深度神经网络模型的输入层包括当前帧和前后各扩展4帧,共9帧特征;所述时延深度神经网络模型的隐藏层有4层,每层均有256个节点;第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点;其它层不做扩展;隐藏层采用ReLU作为激活函数;所述时延深度神经网络模型的输出层则采用sigmoid函数。
4.根据权利要求3所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述将待识别的音频信号进行预处理后逐帧提取基于Mel-fbank特征和描述局部纹理的LTP特征的步骤具体包括:
步骤2-1)对待识别的音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤2-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤2-3)将Mel-fbank特征和LTP特征融合在一起,并对融合后的特征进行全局均值方差归一化,得到输入特征。
5.根据权利要求4所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述步骤2-2)具体包括:
步骤2-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc;
步骤2-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
其中,
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤2-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
LTP={LTPP,R,+(r),LTPP,R,-(r)} (6)
6.根据权利要求5所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签具体为:计算后验概率的对数值,然后将输入音频片段的所有帧对应各个场景下的对数值相加得到累加对数概率值,将累加对数概率值最大者对应的音频类型作为该段音频的场景标签。
7.一种基于局部纹理特征的音频场景识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~6之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811559040.4A CN111341319B (zh) | 2018-12-19 | 2018-12-19 | 一种基于局部纹理特征的音频场景识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811559040.4A CN111341319B (zh) | 2018-12-19 | 2018-12-19 | 一种基于局部纹理特征的音频场景识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111341319A CN111341319A (zh) | 2020-06-26 |
CN111341319B true CN111341319B (zh) | 2023-05-16 |
Family
ID=71181622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811559040.4A Active CN111341319B (zh) | 2018-12-19 | 2018-12-19 | 一种基于局部纹理特征的音频场景识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341319B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883181A (zh) * | 2020-06-30 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 音频检测方法、装置、存储介质及电子装置 |
CN111863026B (zh) * | 2020-07-27 | 2024-05-03 | 北京世纪好未来教育科技有限公司 | 键盘乐器弹奏音乐的处理方法、装置、电子装置 |
CN112432905B (zh) * | 2021-01-28 | 2021-04-20 | 湖北鑫英泰系统技术股份有限公司 | 基于变压器油中特征气体光声光谱的声纹识别方法与装置 |
CN113380233B (zh) * | 2021-06-17 | 2023-01-31 | 北京百度网讯科技有限公司 | 音频识别方法、装置、训练方法、训练装置、设备及存储介质 |
CN115995234A (zh) * | 2022-08-25 | 2023-04-21 | 维沃移动通信有限公司 | 音频降噪方法、装置、电子设备及可读存储介质 |
CN117133311B (zh) * | 2023-02-09 | 2024-05-10 | 荣耀终端有限公司 | 音频场景识别方法及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1372669A (zh) * | 1999-07-03 | 2002-10-02 | 纽约市哥伦比亚大学托管会 | 对普通声频可视数据信号描述的基本实体关系模型 |
WO2013149672A1 (en) * | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
CN104899846A (zh) * | 2015-05-20 | 2015-09-09 | 上海交通大学 | 基于频域局部统计模型的数字图像拼接被动检测方法 |
CN107193853A (zh) * | 2016-12-08 | 2017-09-22 | 孙瑞峰 | 一种基于语境的社交场景构建方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8924207B2 (en) * | 2009-07-23 | 2014-12-30 | Texas Instruments Incorporated | Method and apparatus for transcoding audio data |
-
2018
- 2018-12-19 CN CN201811559040.4A patent/CN111341319B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1372669A (zh) * | 1999-07-03 | 2002-10-02 | 纽约市哥伦比亚大学托管会 | 对普通声频可视数据信号描述的基本实体关系模型 |
WO2013149672A1 (en) * | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
CN104899846A (zh) * | 2015-05-20 | 2015-09-09 | 上海交通大学 | 基于频域局部统计模型的数字图像拼接被动检测方法 |
CN107193853A (zh) * | 2016-12-08 | 2017-09-22 | 孙瑞峰 | 一种基于语境的社交场景构建方法和系统 |
Non-Patent Citations (6)
Title |
---|
张勇 ; 张溯 ; 王旭东 ; 路阳 ; 王臣 ; .基于时频域特征的场景音频研究.吉林大学学报(信息科学版).2018,(03),第81-86页. * |
张宇 ; 张鹏远 ; 颜永红 ; .基于注意力LSTM和多任务学习的远场语音识别.清华大学学报(自然科学版).2018,(03),第 27-31页. * |
曲悦欣.用于无声语音接口的超声图像分析.《万方数据库》.2018,全文. * |
葛凤培 等.鉴别性最大后验概率声学模型自适应.《计算机应用》.2014,第265-269页. * |
金静 ; 党建武 ; 王阳萍 ; 翟凤文 ; .一种基于鲁棒局部纹理特征的背景差分方法.计算机工程与科学.2017,(08),第 126-132页. * |
高敏 ; 尹雪飞 ; 陈克安 ; .时频图像特征用于声场景分类.声学技术.2017,(05),第3-8页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111341319A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111341319B (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
JP7177167B2 (ja) | 混合音声の特定方法、装置及びコンピュータプログラム | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Sailor et al. | Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification. | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
Xu et al. | Convolutional gated recurrent neural network incorporating spatial features for audio tagging | |
US11908455B2 (en) | Speech separation model training method and apparatus, storage medium and computer device | |
Su et al. | Performance analysis of multiple aggregated acoustic features for environment sound classification | |
Stöter et al. | Countnet: Estimating the number of concurrent speakers using supervised learning | |
Espi et al. | Exploiting spectro-temporal locality in deep learning based acoustic event detection | |
US20160189730A1 (en) | Speech separation method and system | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
Choi et al. | DNN-Based Sound Event Detection with Exemplar-Based Approach for Noise Reduction. | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
Li et al. | Sams-net: A sliced attention-based neural network for music source separation | |
Al-Hattab et al. | Rethinking environmental sound classification using convolutional neural networks: optimized parameter tuning of single feature extraction | |
Lu et al. | Deep convolutional neural network with transfer learning for environmental sound classification | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN117312548A (zh) | 一种多源异构灾情数据融合理解方法 | |
Espi et al. | Spectrogram patch based acoustic event detection and classification in speech overlapping conditions | |
Wang et al. | Multi-speaker Speech Separation under Reverberation Conditions Using Conv-Tasnet | |
Meutzner et al. | A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition | |
Lim et al. | Sound event detection in domestic environments using ensemble of convolutional recurrent neural networks | |
CN115267672A (zh) | 声源检测和定位的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |