CN111341319B - 一种基于局部纹理特征的音频场景识别方法及系统 - Google Patents

一种基于局部纹理特征的音频场景识别方法及系统 Download PDF

Info

Publication number
CN111341319B
CN111341319B CN201811559040.4A CN201811559040A CN111341319B CN 111341319 B CN111341319 B CN 111341319B CN 201811559040 A CN201811559040 A CN 201811559040A CN 111341319 B CN111341319 B CN 111341319B
Authority
CN
China
Prior art keywords
mel
time
ltp
fbank
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811559040.4A
Other languages
English (en)
Other versions
CN111341319A (zh
Inventor
白海钏
葛凤培
张鹏远
高圣翔
黄远
沈亮
林格平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201811559040.4A priority Critical patent/CN111341319B/zh
Publication of CN111341319A publication Critical patent/CN111341319A/zh
Application granted granted Critical
Publication of CN111341319B publication Critical patent/CN111341319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于局部纹理特征的音频场景识别方法,所述方法包括:将待识别的音频信号进行预处理后逐帧提取Mel‑fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。

Description

一种基于局部纹理特征的音频场景识别方法及系统
技术领域
本发明涉及音频场景识别领域,更具体地说,本发明涉及一种基于局部纹理特征的音频场景识别方法及系统。
背景技术
场景自动感知是新生代智能化设备的迫切需求,它使得硬件设备能够利用有关场景的先验知识,调整工作模式,达到最佳工作状态。它目前成为移动智能终端、自动驾驶、机器人导航等领域的应用热点。音频场景识别则是通过识别场景产生的声学内容,判断感知主体所处的环境,并对特定的音频场景进行标注(参考文献[1]:Bregman A..Auditoryscene analysis:the perpetual organization of sound.MIT Press,1990.参考文献[2]:Barchiesi D.,Giannoulis D.,Stowell D.,Plumbley M.D..Acoustic sceneclassification:classifying environments from the sounds they produce.IEEESignal Processing Magazine,2015,32(3):16-34.)。
目前,研究人员通常从两个方面展开音频场景识别的研究。其一,在认知心理学方面,研究人耳对于音频场景的认知过程以及如何理解音频场景。其二,在计算模型方面,试图结合信号处理和机器学习的方法,模仿人类的声音感知过程,从复杂音频信号中分辨出“在什么时间、什么地点发生了什么事件”。
在音频特征方面,多数研究工作是从人耳对声音高低频的听觉感知差异性出发提取帧级别的短时特征,并没有引入与音频场景或事件相关时频特性(参考文献[3]:EronenAJ,Peltonen V T,Tuomi J T,et al.Audio Based Context Recognition.IEEETransactions on Audio Speech&Language Processing,2006,14(1):321-329.参考文献[4]:Hwang K.,Lee Y..Environmental audio scene and activity recognitionthrough mobile based crowd sourcing.IEEE Transactions on ConsumerElectronics.2012,58(2):700–705.),而基于声学事件等高级语义特征的音频场景识别方法需要根据特定场景多次建模(参考文献[5]:Heittola T.,Mesaros A.,Eronen A.,Virtanen T..Audio context recognition using audio event histogram.18thEuropean Signal Processing Conference,Aalborg,Denmark,2010:1272–1276.),计算复杂度高,且在有限先验知识的条件下,无法准确判决复杂音频出现的实际场景。因此,需要引入鲁棒性更强、区分性更好的特征,以实现对音频场景信息的有效表征。
音频场景识别目前成为移动智能终端、自动驾驶、机器人导航等领域的应用热点。而音频特征对于场景识别性能的提升具有至关重要的作用,多数研究工作是从人耳对声音高低频的听觉感知差异性出发提取帧级别的短时特征,无法引入丰富的与场景相关的时频信息,而基于声学事件等高级语义特征的识别方法需要根据特定场景多次建模,计算复杂度高,识别准确率低。
发明内容
本发明的目的在于克服上述技术缺陷,从音频纹理角度出发对音频场景识别问题展开研究,提出了一种基于局部纹理特征的音频场景识别方法,该方法鉴于音频特征在场景识别过程中具有至关重要的作用,围绕音频场景特征来进行。
为了实现上述目的,本发明提出了一种基于局部纹理特征的音频场景识别方法,所述方法包括:
将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签。
作为上述方法的一种改进,所述预先训练得到的时延深度神经网络模型的训练步骤包括:对训练数据集的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后作为输入特征,结合已知的场景标签对时延深度神经网络模型进行训练和测试;得到训练好的时延深度神经网络模型;
作为上述方法的一种改进,所述训练步骤具体包括:
步骤1-1)对训练数据集的每个音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤1-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤1-3)将Mel-fbank特征和LTP特征进行融合,并对融合后的特征进行全局均值方差归一化,得到用于模型训练的输入特征;
步骤1-4)构建用于音频场景识别的时延深度神经网络模型,该模型将初始输入层和隐藏层的节点进行多帧扩展,每一层可以采用不同的时间尺度来学习更深层次的上下文信息;
步骤1-5)将步骤1-3)得到的输入特征输入步骤1-4)构建的TDNN模型,以交叉熵为训练准则,并利用随机梯度下降法进行反向传播训练,反复迭代得到TDNN模型;
步骤1-6)利用测试数据对TDNN模型进行测试,测试通过后得到训练好的TDNN模型。
作为上述方法的一种改进,所述步骤1-2)具体包括:
步骤1-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc
步骤1-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
Figure BDA0001912775770000031
其中,
Figure BDA0001912775770000032
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤1-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
Figure BDA0001912775770000033
Figure BDA0001912775770000034
LTP={LTPP,R,+(r),LTPP,R,-(r)}   (6)
其中,
Figure BDA0001912775770000041
作为上述方法的一种改进,所述时延深度神经网络模型的输入层包括当前帧和前后各扩展4帧,共9帧特征;所述时延深度神经网络模型的隐藏层有4层,每层均有256个节点;第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点;其它层不做扩展;隐藏层采用ReLU作为激活函数;所述时延深度神经网络模型的输出层则采用sigmoid函数。
作为上述方法的一种改进,所述将待识别的音频信号进行预处理后逐帧提取基于Mel-fbank特征和描述局部纹理的LTP特征的步骤具体包括:
步骤2-1)对待识别的音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤2-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤2-3)将Mel-fbank特征和LTP特征融合在一起,并对融合后的特征进行全局均值方差归一化,得到输入特征。
作为上述方法的一种改进,所述步骤2-2)具体包括:
步骤2-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc
步骤2-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
Figure BDA0001912775770000042
其中,
Figure BDA0001912775770000051
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤2-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
Figure BDA0001912775770000052
Figure BDA0001912775770000053
LTP={LTPP,R,+(r),LTPP,R,-(r)}   (6)
其中,
Figure BDA0001912775770000054
作为上述方法的一种改进,所述采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签具体为:计算后验概率的对数值,然后将输入音频片段的所有帧对应各个场景下的对数值相加得到累加对数概率值,将累加对数概率值最大者对应的音频类型作为该段音频的场景标签。
一种基于局部纹理特征的音频场景识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优势在于:本发明的音频场景识别方法,基于对场景时频信息的有效表征,更好地实现了音频场景种类的识别。
附图说明
图1是本发明的音频场景识别方法的流程图;
图2是本发明的基于局部纹理模式的特征提取流程图。
具体实施方式
下面结合附图对本发明进行详细的说明。
与纯净语音和音乐信号相比,实际音频场景存在更为复杂的背景噪声和干扰声,不同场景的频谱结构具有复杂多样性,同一种场景类型的音频之间也会呈现不同的时频动态特性。将相同场景的不同音频信号语谱图进行对比可以发现,虽然声学事件和背景噪声的能量或发生次序等略有差别,但其频谱的纹理结构较为接近。将不同场景下音频的语谱图进行对比,可以发现不同场景的音频纹理结构具有明显的区分性,尤其是低频部分的频谱纹理结构差异非常明显。
因此,受图像纹理特征启发,本发明的方法从音频纹理特征的角度对音频的局部时频特性进行研究。由于音频场景识别领域最常见的梅尔频率倒谱系数的倒谱提取过程中会去除参数间的相关性,而原始音频频谱中存在较大冗余,因此该方法基于对数梅尔尺度滤波器组系数(Log Mel-frequency filter bank coefficients,Mel-fbank)基础上采用局部模式方法从音频纹理的角度对音频场景的局部时频特性进行研究。而且在真实声学环境下,背景噪声能量较强,音频场景处于较低信噪比的条件下,Mel-fbank时频谱分布趋于均匀,如果采用常见的局部二值模式方法提取音频纹理信息,其场景识别性能会受到一定影响。为此,本发明采用局部三值模式(Local Ternary Patterns,LTP)方法对音频纹理结构进行了提取。
本发明的音频场景识别方法的如图1所示,该方法主要分为模型训练和识别阶段两个阶段。在训练阶段,首先对训练数据集中的音频信号进行分帧、加窗等预处理,并逐帧提取基于Mel-fbank和局部纹理模式的特征。接下来,利用训练数据对时延深度神经网络(Time-Delay Neural Network,TDNN)模型进行训练。在识别阶段,将每一帧待识别音频特征送入到训练好神经网络模型,计算各个音频场景类型对应的后验概率。最终,依据后处理决策机制获得整个待识别音频片段相应的音频场景标签。其中,特征提取模块采用LTP方法基于Mel-fbank特征的局部纹理进行提取,同时联合传统特征来共同表征不同场景下的音频时频特性。
音频场景特征的具体提取过程如图2所示。首先以40ms帧长、20ms帧移的方式对音频信号进行分帧、加汉宁窗等,得到每帧音频时域信号。接下来利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波。对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数。
在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心点,定义一个半径为R的环形邻域。邻域中P个时频点均匀地分布在圆周上。假设邻域的局部纹理特征用T来表示,则T可以用该邻域上P+1个时频点的函数t(.)来表示:
T=t(fc,f0,f1,...,fP-1)   (1)
其中,fc为中心时频点的Mel-fbank特征值,fp,p=0,1,…,P-1为邻域中P个时频点对应的Mel-fbank特征值。然而在设计函数t(.)时,还需防止所获得的局部纹理特征T受到Mel-fbank能量的缩放或偏移所影响。为了更直观地在邻域时频点中获取局部纹理信息,可以利用邻域时频点与中心时频点之间的Mel-fbank能量差异来重新定义局部纹理特征T如下,
Figure BDA0001912775770000071
其中,
Figure BDA0001912775770000072
r为设定的区间阈值。根据实际场景识别性能结果,r=5。
该符号函数sign(fp-fc)利用三值表示方式粗略地表征了邻域时频点fp与中心时频点fc之间的Mel-fbank能量差异。在此基础上,LTP则直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征。LTP实际计算时将其进行拆分,形成正负两个序列的二值编码,最后加以连接,如式(4)、(5)和(6)所示:
Figure BDA0001912775770000073
Figure BDA0001912775770000074
LTPP,T={LTPP,R,+(r),LTPP,R,-(r)}   (6)
其中,
Figure BDA0001912775770000075
R和P为经验值,通常取R=3、P=16。
根据公式(4)、(5)计算十进制LTP值时,邻域时频点f0初始位置和其他邻域时频点fp(p≠0)的排列次序对音频场景识别性能影响不大,因此将左上角固定为f0初始位置,按照顺时针方向选取其他邻域时频点。那么,利用上述方法每一帧音频数据中将会计算得到80维LTP特征。
最终,本发明的方法将Mel-fbank特征和局部纹理特征LTP融合在一起,并对所有特征进行全局均值方差归一化,得到用于后端模型训练的输入特征。
通过上述方法获得音频特征后,后端模型采用TDNN对音频场景进行识别。TDNN将初始输入层和隐藏层的节点进行多帧扩展,每一层可以采用不同的时间尺度来学习更深层次的上下文信息。受益于其结构上的时序关联性,TDNN可以直接从音频局部纹理特征中对声音场景进行建模。TDNN共包括4个隐藏层,每层均有256个节点。其中,输入层包括当前帧和前后各扩展4帧,共9帧特征;第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点;其他层不做扩展。隐藏层采用ReLU作为激活函数,输出层则采用sigmoid函数。网络训练以交叉熵为目标准则,并利用随机梯度下降法进行反向传播训练。
基于Mel-fbank和LTP局部纹理的音频特征通过TDNN模型参数调优和训练后,得到最佳的网络参数。在识别阶段,对输入音频每帧提取音频特征,并利用训练完成的深度神经网络模型输出每一帧特定音频场景的后验概率值。接下来,对这些概率值求取对数,缩小概率数据之间的动态范围。然后将输入音频片段的所有帧对应各个场景下的对数概率值相加,找到累加对数概率值最大者对应的音频类型作为该段音频的场景标签。
训练阶段:
1)对训练数据集的音频信号进行分帧、加窗等预处理;
2)逐帧提取基于Mel-fbank和描述局部纹理的LTP特征;
3)根据所提取的特征和对应的配置参数对TDNN模型进行训练。
识别阶段:
1)对待识别数据集的音频信号进行与训练阶段相似的预处理和特征提取;
2)将所得每一帧待识别音频特征送入训练好的神经网络模型;
3)逐帧计算输入特征对应于不同音频场景类型的后验概率;
4)采用一定的后处理决策机制获取待识别音频片段对应的音频场景标签。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于局部纹理特征的音频场景识别方法,所述方法包括:
将待识别的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后输入预先训练得到的时延深度神经网络模型;得到对应于不同音频场景类型的后验概率;采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签;
所述预先训练得到的时延深度神经网络模型的训练步骤包括:对训练数据集的音频信号进行预处理后逐帧提取Mel-fbank特征和描述局部纹理的LTP特征;进行融合后作为输入特征,结合已知的场景标签对时延深度神经网络模型进行训练和测试;得到训练好的时延深度神经网络模型;
所述训练步骤具体包括:
步骤1-1)对训练数据集的每个音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤1-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤1-3)将Mel-fbank特征和LTP特征进行融合,并对融合后的特征进行全局均值方差归一化,得到用于模型训练的输入特征;
步骤1-4)构建用于音频场景识别的时延深度神经网络模型,该模型将初始输入层和隐藏层的节点进行多帧扩展,每一层可以采用不同的时间尺度来学习更深层次的上下文信息;
步骤1-5)将步骤1-3)得到的输入特征输入步骤1-4)构建的TDNN模型,以交叉熵为训练准则,并利用随机梯度下降法进行反向传播训练,反复迭代得到TDNN模型;
步骤1-6)利用测试数据对TDNN模型进行测试,测试通过后得到训练好的TDNN模型。
2.根据权利要求1所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述步骤1-2)具体包括:
步骤1-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc
步骤1-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
Figure FDA0004110384210000021
其中,
Figure FDA0004110384210000022
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤1-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
Figure FDA0004110384210000023
Figure FDA0004110384210000024
LTP={LTPP,R,+(r),LTPP,R,-(r)} (6)
其中,
Figure FDA0004110384210000025
3.根据权利要求2所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述时延深度神经网络模型的输入层包括当前帧和前后各扩展4帧,共9帧特征;所述时延深度神经网络模型的隐藏层有4层,每层均有256个节点;第3个隐藏层网络系数取决于第2个隐藏层当前帧节点和前后各两帧节点;其它层不做扩展;隐藏层采用ReLU作为激活函数;所述时延深度神经网络模型的输出层则采用sigmoid函数。
4.根据权利要求3所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述将待识别的音频信号进行预处理后逐帧提取基于Mel-fbank特征和描述局部纹理的LTP特征的步骤具体包括:
步骤2-1)对待识别的音频信号进行分帧、加汉宁窗,得到每帧音频时域信号;利用快速傅里叶变换将其转换到频域,并采用40阶Mel尺度滤波器组对其进行滤波,对所得到的Mel子带能量求取对数,进而获得40维Mel-fbank特征fi(j),i=0,1,…,N-1;j=0,1,…,39,其中i代表帧数,j代表特征维数,N为音频信号的总帧数;
步骤2-2)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,选取均匀分布在半径为R的环形邻域圆周上的P个邻域时频点;利用邻域时频点与中心时频点之间的Mel-fbank能量差异形成描述中心时频点局部邻域纹理细节的LTP特征;
步骤2-3)将Mel-fbank特征和LTP特征融合在一起,并对融合后的特征进行全局均值方差归一化,得到输入特征。
5.根据权利要求4所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述步骤2-2)具体包括:
步骤2-2-1)在Mel-fbank特征构成的子带能量谱中,以某个Mel-fbank时频点为中心时频点,其Mel-fbank特征值为fc
步骤2-2-2)定义一个半径为R的环形邻域,P个邻域时频点均匀地分布在圆周上,则利用邻域时频点与中心时频点之间的Mel-fbank能量差异定义局部纹理特征T:
Figure FDA0004110384210000031
其中,
Figure FDA0004110384210000032
其中,fp,p=0,1,…,P-1为P个邻域时频点对应的Mel-fbank特征值;r为设定的区间阈值;
步骤2-2-3)直接将{sign(fp-fc),p=0,1,…,P-1}三值序列转换为一个十进制数,从而形成描述中心时频点局部邻域纹理细节的LTP特征:
首先形成正负两个序列的二值编码LTPP,R,+(r)和LTPP,R,-(r),然后加以连接得到LTP特征LTP,如式(4)、(5)和(6)所示:
Figure FDA0004110384210000041
Figure FDA0004110384210000042
LTP={LTPP,R,+(r),LTPP,R,-(r)} (6)
其中,
Figure FDA0004110384210000043
6.根据权利要求5所述的基于局部纹理特征的音频场景识别方法,其特征在于,所述采用后处理决策机制处理后验概率获取待识别音频信号对应的音频场景标签具体为:计算后验概率的对数值,然后将输入音频片段的所有帧对应各个场景下的对数值相加得到累加对数概率值,将累加对数概率值最大者对应的音频类型作为该段音频的场景标签。
7.一种基于局部纹理特征的音频场景识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~6之一所述方法的步骤。
CN201811559040.4A 2018-12-19 2018-12-19 一种基于局部纹理特征的音频场景识别方法及系统 Active CN111341319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811559040.4A CN111341319B (zh) 2018-12-19 2018-12-19 一种基于局部纹理特征的音频场景识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811559040.4A CN111341319B (zh) 2018-12-19 2018-12-19 一种基于局部纹理特征的音频场景识别方法及系统

Publications (2)

Publication Number Publication Date
CN111341319A CN111341319A (zh) 2020-06-26
CN111341319B true CN111341319B (zh) 2023-05-16

Family

ID=71181622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811559040.4A Active CN111341319B (zh) 2018-12-19 2018-12-19 一种基于局部纹理特征的音频场景识别方法及系统

Country Status (1)

Country Link
CN (1) CN111341319B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883181A (zh) * 2020-06-30 2020-11-03 海尔优家智能科技(北京)有限公司 音频检测方法、装置、存储介质及电子装置
CN111863026B (zh) * 2020-07-27 2024-05-03 北京世纪好未来教育科技有限公司 键盘乐器弹奏音乐的处理方法、装置、电子装置
CN112432905B (zh) * 2021-01-28 2021-04-20 湖北鑫英泰系统技术股份有限公司 基于变压器油中特征气体光声光谱的声纹识别方法与装置
CN113380233B (zh) * 2021-06-17 2023-01-31 北京百度网讯科技有限公司 音频识别方法、装置、训练方法、训练装置、设备及存储介质
CN115995234A (zh) * 2022-08-25 2023-04-21 维沃移动通信有限公司 音频降噪方法、装置、电子设备及可读存储介质
CN117133311B (zh) * 2023-02-09 2024-05-10 荣耀终端有限公司 音频场景识别方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372669A (zh) * 1999-07-03 2002-10-02 纽约市哥伦比亚大学托管会 对普通声频可视数据信号描述的基本实体关系模型
WO2013149672A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
CN104899846A (zh) * 2015-05-20 2015-09-09 上海交通大学 基于频域局部统计模型的数字图像拼接被动检测方法
CN107193853A (zh) * 2016-12-08 2017-09-22 孙瑞峰 一种基于语境的社交场景构建方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924207B2 (en) * 2009-07-23 2014-12-30 Texas Instruments Incorporated Method and apparatus for transcoding audio data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372669A (zh) * 1999-07-03 2002-10-02 纽约市哥伦比亚大学托管会 对普通声频可视数据信号描述的基本实体关系模型
WO2013149672A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
CN104899846A (zh) * 2015-05-20 2015-09-09 上海交通大学 基于频域局部统计模型的数字图像拼接被动检测方法
CN107193853A (zh) * 2016-12-08 2017-09-22 孙瑞峰 一种基于语境的社交场景构建方法和系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
张勇 ; 张溯 ; 王旭东 ; 路阳 ; 王臣 ; .基于时频域特征的场景音频研究.吉林大学学报(信息科学版).2018,(03),第81-86页. *
张宇 ; 张鹏远 ; 颜永红 ; .基于注意力LSTM和多任务学习的远场语音识别.清华大学学报(自然科学版).2018,(03),第 27-31页. *
曲悦欣.用于无声语音接口的超声图像分析.《万方数据库》.2018,全文. *
葛凤培 等.鉴别性最大后验概率声学模型自适应.《计算机应用》.2014,第265-269页. *
金静 ; 党建武 ; 王阳萍 ; 翟凤文 ; .一种基于鲁棒局部纹理特征的背景差分方法.计算机工程与科学.2017,(08),第 126-132页. *
高敏 ; 尹雪飞 ; 陈克安 ; .时频图像特征用于声场景分类.声学技术.2017,(05),第3-8页. *

Also Published As

Publication number Publication date
CN111341319A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
JP7177167B2 (ja) 混合音声の特定方法、装置及びコンピュータプログラム
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
Sailor et al. Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification.
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Xu et al. Convolutional gated recurrent neural network incorporating spatial features for audio tagging
US11908455B2 (en) Speech separation model training method and apparatus, storage medium and computer device
Su et al. Performance analysis of multiple aggregated acoustic features for environment sound classification
Stöter et al. Countnet: Estimating the number of concurrent speakers using supervised learning
Espi et al. Exploiting spectro-temporal locality in deep learning based acoustic event detection
US20160189730A1 (en) Speech separation method and system
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
Choi et al. DNN-Based Sound Event Detection with Exemplar-Based Approach for Noise Reduction.
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
Li et al. Sams-net: A sliced attention-based neural network for music source separation
Al-Hattab et al. Rethinking environmental sound classification using convolutional neural networks: optimized parameter tuning of single feature extraction
Lu et al. Deep convolutional neural network with transfer learning for environmental sound classification
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN117312548A (zh) 一种多源异构灾情数据融合理解方法
Espi et al. Spectrogram patch based acoustic event detection and classification in speech overlapping conditions
Wang et al. Multi-speaker Speech Separation under Reverberation Conditions Using Conv-Tasnet
Meutzner et al. A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition
Lim et al. Sound event detection in domestic environments using ensemble of convolutional recurrent neural networks
CN115267672A (zh) 声源检测和定位的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant