CN112466333A - 一种声学场景分类方法与系统 - Google Patents

一种声学场景分类方法与系统 Download PDF

Info

Publication number
CN112466333A
CN112466333A CN202011332458.9A CN202011332458A CN112466333A CN 112466333 A CN112466333 A CN 112466333A CN 202011332458 A CN202011332458 A CN 202011332458A CN 112466333 A CN112466333 A CN 112466333A
Authority
CN
China
Prior art keywords
acoustic scene
scene classification
mel
source
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011332458.9A
Other languages
English (en)
Inventor
刘明
孙冲武
周彦兵
李永红
王贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN202011332458.9A priority Critical patent/CN112466333A/zh
Publication of CN112466333A publication Critical patent/CN112466333A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种声学场景分类方法,包括以下步骤:S1、将采集到的环境音频信号输入到特征提取模块,进行基于谐波冲击的梅尔对数谱特征的提取;S2、将提取到的梅尔对数谱特征输入到集成学习分类器模块,进行声学场景分类,得到声学场景分类结果;S3、将声学场景分类结果输入到综合决策模块,进行综合决策,然后做出最终的分类决定。本发明还提供了一种声学场景分类系统。本发明的有益效果是:可以可靠地、准确地识别音频中的不同场景。

Description

一种声学场景分类方法与系统
技术领域
本发明涉及声学场景,尤其涉及一种声学场景分类方法与系统。
背景技术
在真实声学场景中,通常会伴随着多种声音的同时出现,也就导致了场景声音并不明显,例如,在一些音频中不仅包含人说话的声音,还包含了各种人类活动的声音如走路、骑车以及周围的环境声音,如街道上的汽车声音、沙滩的海浪声等等。此时,从复杂的音频中识别出真实的声学场景是比较困难的,目前分类方法如隐马尔可夫模型、高斯混合模型、支持向量机、K近邻算法等,虽然在数据量较小的情况下也能取得不错的分类准确率,但是当数据更加丰富、场景类型更多时,这些方法均表现不佳。因此,需要设计更好的分类模型来可靠地、准确地识别音频中的不同场景。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于集成学习和谐波冲击梅尔对数特征的声学场景分类方法与系统。
本发明提供了一种声学场景分类方法,包括以下步骤:
S1、将采集到的环境音频信号输入到特征提取模块,进行基于谐波冲击的梅尔对数谱特征的提取;
S2、将提取到的梅尔对数谱特征输入到集成学习分类器模块,进行声学场景分类,得到声学场景分类结果;
S3、将声学场景分类结果输入到综合决策模块,进行综合决策,然后做出最终的分类决定。
作为本发明的进一步改进,在步骤S1中,首先,将采集到的环境音频信号进行分帧加窗处理,再进行短时傅里叶变换,得到信号的频谱特征,再分离信号中的谐波源和冲击源,得到信号中的谐波源和冲击源特征后,分别提取谐波源和冲击源各自的梅尔对数谱特征,得到谐波源梅尔对数特征和冲击源梅尔对数特征。
作为本发明的进一步改进,在步骤S2中,将声学场景分类结果输入到多个不同参数配置的深层卷积神经网络,采用集成学习的方法对多个不同参数配置的深层卷积神经网络进行评分矩阵的估计。
作为本发明的进一步改进,所述深层卷积神经网络采用堆叠残差模块的方式,每个残差模块由两个二维卷积层构成。
作为本发明的进一步改进,每个二维卷积层的卷积核不同,输出通道数也不同。
作为本发明的进一步改进,在步骤S3中,采用加权方式的布尔运算方法进行综合决策。
本发明还提供了一种声学场景分类系统,包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。
本发明的有益效果是:通过上述方案,可以可靠地、准确地识别音频中的不同场景。
附图说明
图1是本发明一种声学场景分类方法的处理流程框图。
图2是本发明一种声学场景分类方法的深度卷积网络分类器模型结构图。
具体实施方式
下面结合附图说明及具体实施方式对本发明作进一步说明。
一种基于集成学习和谐波冲击梅尔对数特征的声学场景分类方法,通过提取一种基于谐波冲击的声学特征,并将其作为多个不同的卷积神经网络模型的输入进行声学场景分类器的构建,最后通过一种加权评估函数来实现对多个模型输出结果的综合。整个算法的处理流程如图1所示,它主要由特征提取模块、多模型分类模块和综合决策模块构成。
如图1所示,采集到的环境音频信号首先通过分帧加窗处理,采用海明窗对信号进行截断,每帧的帧长为40ms,帧移为20ms,并进行2048点的短时傅里叶变换,得到信号的频谱特征。接下来需要分离信号中的谐波源和冲击源,用Hh,i表示谐波源,Ph,i表示冲击源,Wh,i为音频信号的功率谱,那么谐波源和冲击源满足下式(1)的关系:
Hh,i+Ph,i=Wh,i Hh,i>0,Ph,i>0 (1)
同时谐波源和冲击源还要满足下式(2)中的代价函数约束:
Figure BDA0002796209460000031
其中,σp和σH为权重平滑因子。最小化上述的代价函数,便可以求解得分离出的谐波源和冲击源,由于代价函数是一个典型的凹函数,可以利用迭代法进行求解,从而得到式子(3)和(4)中的表达式。
Figure BDA0002796209460000041
Figure BDA0002796209460000042
其中引入的Uh,i=(Hh,i-1+Hh,i)/2,Vh,i=(Ph-1,i+Ph,i)/2是用于求解的辅助函数,k表示迭代次数。得到谐波源和冲击源特征以后,分别提取各自的梅尔对数谱特征,采用128个三角滤波器在梅尔尺度上进行滤波,便得到了128维谐波源梅尔对数特征和128维冲击源梅尔对数特征。由于对场景进行分类时,我们会随机截取输入10s的音频进行分析,经过特征提取和拼接之后,就会得到一个二维的特征矩阵[500,256]。
接下来,需要将提取的特征进行分类,而对于分类器的设计,本发明采用的集成学习的方法对N个不同参数配置的深层卷积神经网络进行评分矩阵的估计。其中深层卷积神经网络的结构图下图2所示,这里采用了堆叠残差模块的方式逐渐加深卷积网络模型的深度,每个残差模块由两个二维卷积层构成,图中的卷积层采用3×3的卷积核,随后进行ReLU非线性激活,并进行平均值池化操作。在集成学习模块,将采用4个类似结构的卷积网络模型,每个卷积网络模型的卷积核不同,分别为3×3、5×5、7×7和11×11,并且各自的输出通道数也不同,前两个深层卷积模块的通道数为32,后两个的通道数则为64,此外每个卷积模块所具备的层数也不同,分别为19、25、32、48和62层。由于我们假设对10种场景进行分类,所以每个卷积模块的最后一层为10维的全连接层,并对10个神经元输出进行SoftMax操作,得到一个4×10的场景得分矩阵。在训练过程中,各个卷积分类其模块之间没有强依赖性,可以进行并行训练,每个个体都进行单独学习,训练的数据集大小相同,但是相互之间只有20%的重叠数据,其余80%的数据都是不同的。这样的方法训练策略可以使得个体之间存在差异性,使得最终做出的判断不会完全一致。此外,为了减小训练过程中的过拟合问题,这里采用了30%的随机神经元失活和批归一化的方式对每一层卷积操作进行正则化处理。
从深层卷积网络模块得到评分矩阵以后,接下来就需要对其进行分析综合,然后做出最终的分类决定。为了无偏地对评分的结果进行决策,这里采用了一种加权方式的布尔运算方法,如下式(5)所示。
Figure BDA0002796209460000051
其中δ(·)为布尔函数,Si(·)为每个分类模块的输出评分值,x为提取的输入特征。本发明所采用的集成方法的的主要好处是集成后的分类器的方差比每个单独分类器的方差小,这也是它可以提升弱分类器的性能的主要原因。采用加权平均的布尔运算决策方式,有效地减小了模型的方差,使其输出结果更加稳定,也就具备了更高的分类准确率。
这里对本发明所提出的方法进行了实验验证,采用IEEE DCASE2019声音数据集作为场景声音样本,总共10类声学场景(机场内、公交车内、地铁内、地铁站、公园、公共广场、商场、步行街、街道、有轨电车内)。本数据集是由每个场景有1440个双声道音频,分别来自十个不同的城市,每个城市收集144个音频,保证了数据集的丰富性,总共14400个音频。声音样本采样率为48kHz,声音长度为10s。我们只取出左声道音频,并把数据集随机分为等比例的4份样本数据,四分之三作为训练集,剩余的四份之一作为验证集。实验结果表明,本发明提出的方法在10类声学场景下,可以实现74.4%的准确率,并且集成学习的方法可以获得比任何单独的卷积分类器模型更高的准确率,也证明了本发明的贡献和有效性。
与传统的机器学习分类方法如高斯混合模型、支持向量机等,利用对数梅尔特征进行建模分类的方法不同,本发明提出了一种谐波冲击梅尔对数特征的提取方法作为分类器的输入,采用了深度神经网络进行场景的分类器设计,并利用集成学习的方法进行多模型的融合和决策。该发明方法的主要优点如下:
(1)利用谐波冲击提取的梅尔对数特征,可以更好地区分一些音频场景,降低了干扰音源的影响;
(2)利用深度神经网络进行分类建模的方法,学习能力更强,可以从更大规模的数据中学习到更好的分类函数;
(3)集成学习的方法,将多个不同配置的模型分类结果进行决策综合,相当于考虑了多个专家模型的打分结果,可以保证分类准确率更高,分类结果更加可靠。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种声学场景分类方法,其特征在于,包括以下步骤:
S1、将采集到的环境音频信号输入到特征提取模块,进行基于谐波冲击的梅尔对数谱特征的提取;
S2、将提取到的梅尔对数谱特征输入到集成学习分类器模块,进行声学场景分类,得到声学场景分类结果;
S3、将声学场景分类结果输入到综合决策模块,进行综合决策,然后做出最终的分类决定。
2.根据权利要求1所述的声学场景分类方法,其特征在于:在步骤S1中,首先,将采集到的环境音频信号进行分帧加窗处理,再进行短时傅里叶变换,得到信号的频谱特征,再分离信号中的谐波源和冲击源,得到信号中的谐波源和冲击源特征后,分别提取谐波源和冲击源各自的梅尔对数谱特征,得到谐波源梅尔对数特征和冲击源梅尔对数特征。
3.根据权利要求1所述的声学场景分类方法,其特征在于:在步骤S2中,将声学场景分类结果输入到多个不同参数配置的深层卷积神经网络,采用集成学习的方法对多个不同参数配置的深层卷积神经网络进行评分矩阵的估计。
4.根据权利要求3所述的声学场景分类方法,其特征在于:所述深层卷积神经网络采用堆叠残差模块的方式,每个残差模块由两个二维卷积层构成。
5.根据权利要求4所述的声学场景分类方法,其特征在于:每个二维卷积层的卷积核不同,输出通道数也不同。
6.根据权利要求1所述的声学场景分类方法,其特征在于:在步骤S3中,采用加权方式的布尔运算方法进行综合决策。
7.一种声学场景分类系统,其特征在于:包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至6中任一项所述的方法。
CN202011332458.9A 2020-11-24 2020-11-24 一种声学场景分类方法与系统 Pending CN112466333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011332458.9A CN112466333A (zh) 2020-11-24 2020-11-24 一种声学场景分类方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011332458.9A CN112466333A (zh) 2020-11-24 2020-11-24 一种声学场景分类方法与系统

Publications (1)

Publication Number Publication Date
CN112466333A true CN112466333A (zh) 2021-03-09

Family

ID=74799785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011332458.9A Pending CN112466333A (zh) 2020-11-24 2020-11-24 一种声学场景分类方法与系统

Country Status (1)

Country Link
CN (1) CN112466333A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793622A (zh) * 2021-09-10 2021-12-14 中国科学院声学研究所 一种音频场景识别方法、系统及装置
CN113808604A (zh) * 2021-09-16 2021-12-17 江南大学 基于伽马通频谱分离的声场景分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388917A (zh) * 2018-02-26 2018-08-10 东北大学 一种基于改进深度学习模型的高光谱图像分类方法
CN109754002A (zh) * 2018-12-24 2019-05-14 上海大学 一种基于深度学习的隐写分析混合集成方法
CN109978034A (zh) * 2019-03-18 2019-07-05 华南理工大学 一种基于数据增强的声场景辨识方法
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN110600054A (zh) * 2019-09-06 2019-12-20 南京工程学院 基于网络模型融合的声场景分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388917A (zh) * 2018-02-26 2018-08-10 东北大学 一种基于改进深度学习模型的高光谱图像分类方法
CN109754002A (zh) * 2018-12-24 2019-05-14 上海大学 一种基于深度学习的隐写分析混合集成方法
CN109978034A (zh) * 2019-03-18 2019-07-05 华南理工大学 一种基于数据增强的声场景辨识方法
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN110600054A (zh) * 2019-09-06 2019-12-20 南京工程学院 基于网络模型融合的声场景分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793622A (zh) * 2021-09-10 2021-12-14 中国科学院声学研究所 一种音频场景识别方法、系统及装置
CN113793622B (zh) * 2021-09-10 2023-08-29 中国科学院声学研究所 一种音频场景识别方法、系统及装置
CN113808604A (zh) * 2021-09-16 2021-12-17 江南大学 基于伽马通频谱分离的声场景分类方法
CN113808604B (zh) * 2021-09-16 2023-11-14 江南大学 基于伽马通频谱分离的声场景分类方法

Similar Documents

Publication Publication Date Title
CN109065030B (zh) 基于卷积神经网络的环境声音识别方法及系统
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
CN110600054B (zh) 基于网络模型融合的声场景分类方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN110390952B (zh) 基于双特征2-DenseNet并联的城市声音事件分类方法
CN106847309A (zh) 一种语音情感识别方法
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN102890930A (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN112466333A (zh) 一种声学场景分类方法与系统
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
CN114373476A (zh) 一种基于多尺度残差注意力网络的声音场景分类方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
Ma et al. Deep semantic encoder-decoder network for acoustic scene classification with multiple devices
CN116543795B (zh) 一种基于多模态特征融合的声音场景分类方法
Aryal et al. Frequency-based CNN and attention module for acoustic scene classification
CN106531156A (zh) 一种基于室内多移动源实时处理的语音信号增强技术方法
Meutzner et al. A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition
Połap et al. Image approach to voice recognition
CN115267672A (zh) 声源检测和定位的方法
CN113936667A (zh) 一种鸟鸣声识别模型训练方法、识别方法及存储介质
CN113808604A (zh) 基于伽马通频谱分离的声场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination