CN110046655B - 一种基于集成学习的音频场景识别方法 - Google Patents
一种基于集成学习的音频场景识别方法 Download PDFInfo
- Publication number
- CN110046655B CN110046655B CN201910235050.0A CN201910235050A CN110046655B CN 110046655 B CN110046655 B CN 110046655B CN 201910235050 A CN201910235050 A CN 201910235050A CN 110046655 B CN110046655 B CN 110046655B
- Authority
- CN
- China
- Prior art keywords
- audio
- classifier
- channel audio
- training
- classifier network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000037433 frameshift Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
一种基于集成学习的音频场景识别方法,包括:将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。本发明相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。能够得到高性能的音频场景识别系统。
Description
技术领域
本发明涉及一种音频场景识别方法。特别是涉及一种用于多个音频场景识别子模型集成学习的基于集成学习的音频场景识别方法。
背景技术
目前,用于音频场景识别通常采用如下方法。
1、音频场景识别描述
音频场景识别的数据是在现实环境中直接采集的,就必然存在重叠声音的存在。人类生活在一个复杂的音频环境中,在忽略或简单地承认其他声音来源的同时,能够很好地遵循特定的声源。例如,我们可以在一个由其他人谈话或音乐组成的繁忙的背景下进行谈话。音频场景识别自动分类的性能在这一任务中受到了很大的限制。声混合信号包含多个同时发生的声音事件,机器听觉系统在识别这些声音事件方面还远远没有达到人类的水平。单个的声音事件可以用来描述一个音频场景:它们可以以一种象征性的方式来代表一个繁忙街道上的场景,汽车经过,汽车喇叭和人们匆忙的脚步。
音频场景识别与分类的目的是对声音信号进行处理,将其转化为现场出现的相应声音事件的符号描述,用于自动标注、自动声音分析或音频分割等应用。以往与音频场景识别相关的研究都是考虑带有显式标注的重叠事件的音频场景,但是检测结果是以序列的形式呈现的,假设每次只包含最显著的事件。在这方面,系统每次只能找到一个场景,如果检测到的场景包含在注释中,则评估会认为输出是正确的。在多源环境中,这种系统的性能非常有限。
2、卷积神经网络工作原理
卷积神经网络(Convolutional Neural Network,CNN)是一种深度的监督学习下的机器学习模型,具有极强的适应性,善于挖掘数据局部特征,提取全局训练特征和分类,它的权值共享结构网络使之更类似于生物神经网络,一定程度上减轻了DNN的参数数量膨胀问题。相比于常规的深度学习方法,CNN不仅可以处理高维数据,具有捕获局部特性的特点,还可以捕获经常性的局部结特性。在处理复杂且存在重叠的日常音频信号时,具有明显的有效性和优势性。
对于CNN来说,不是所有的上下层神经元都能直接相连,而需要通过“卷积核”作为中介。同一个卷积核在多有图像内是共享的,图像通过卷积操作仍能保留原先的位置关系。
CNN卷积神经网络包括输入层、卷积层、池化层、全接连层、输出层。卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。其输出层节点数一般等于分类类别数,即采用独热编码方式对标签进行编码。
发明内容
本发明所要解决的技术问题是,提供一种训练集准确率高、适用多种音频场景基于集成学习的音频场景识别方法。
本发明所采用的技术方案是:一种基于集成学习的音频场景识别方法,包括如下步骤:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。
步骤1)中所述的单声道音频信号和中央边侧声道音频信号的获取是:
由左右声道音频信号生成中央边侧声道音频信号:Mid=L+R,Sid=L-R,其中Mid表示中央声道音频信号,Sid表示边侧声道音频信号。
步骤2)所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为N ms,帧移大小为N/2ms,使用M个mel滤波器得到mel谱图,该谱图为提取的音频特征。
步骤3)包括:
(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对;
(2)使用分类器网络学习音频特征与对应的类标签之间的映射;
(3)在测试阶段,使用训练获得的分类器网络对已有测试集的音频进行识别,分类器网络的估计输出期望有两种情况,一种是,当估计输出中不存在与音频特征与相对应的类标签时,接近于0;另一种是,当估计输出中存在与音频特征与相对应的类标签时,接近于1。
步骤4)包括:
(1)设计加权模型:
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
(3)集成计算
H(x)表示对应输入音频信号的输出类标签,即音频场景。
本发明的一种基于集成学习的音频场景识别方法,采用集成学习法对所有单个分类器网络分类结果进行集成学习,设置最佳的权重参数,获得较好的分类性能,相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。因此,基于集成学习的音频场景识别方法能够得到高性能的音频场景识别系统。
附图说明
图1是本发明一种基于集成学习的音频场景识别方法的系统框架示意图;
图2a是本发明中单通道分类器网络的结构框图;
图2b是本发明中双通道分类器网络的结构框图。
具体实施方式
下面结合实施例和附图对本发明的一种基于集成学习的音频场景识别方法做出详细说明。
如图1所示,本发明的一种基于集成学习的音频场景识别方法,包括如下步骤:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
所述的单声道音频信号和中央边侧声道音频信号的获取是:
由左右声道音频信号生成中央边侧声道音频信号:Mid=L+R,Sid=L-R,其中Mid表示中央声道音频信号,Sid表示边侧声道音频信号。
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路,如图2a和图2b所示,其中,图2a用于单声道音频信号的训练,图2b用于左右声道音频信号和中央边侧声道音频信号的训练;
所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为N ms,帧移大小为N/2ms,使用M个mel滤波器得到mel谱图,该谱图为提取的音频特征。
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;包括:
(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对;
(2)使用分类器网络学习音频特征与对应的类标签之间的映射;
(3)在测试阶段,使用训练获得的分类器网络对已有测试集的音频进行识别,分类器网络的估计输出期望有两种情况,一种是,当估计输出中不存在与音频特征与相对应的类标签时,接近于0;另一种是,当估计输出中存在与音频特征与相对应的类标签时,接近于1。
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。包括:
(1)设计加权模型:
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
(3)集成计算
H(x)表示对应输入音频信号的输出类标签,即音频场景。
从表1 Mono+CNN方法、LR+CNN方法、MS+CNN方法和本发明的基于集成学习的方法的对比中可以看出基于集成学习的音频场景识别方法,分类准确率达到了72.7%,相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。因此,基于集成学习的音频场景识别方法能够得到高性能的音频场景识别系统。
表1音频场景识别系统准确率
下面给出具体实例:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
所述的单声道音频信号和中央边侧声道音频信号的获取是:
由左右声道音频信号生成中央边侧声道音频信号:Mid=L+R,Sid=L-R,其中Mid表示中央声道音频信号,Sid表示边侧声道音频信号。
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路,如图2a和图2b所示,其中,图2a用于单声道音频信号的训练,图2b用于左右声道音频信号和中央边侧声道音频信号的训练;
所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为46ms,帧移大小为23ms,使用128个mel滤波器得到mel谱图,该谱图为提取的音频特征。
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;包括:
(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对;
(2)使用分类器网络学习音频特征与对应的类标签之间的映射;
(3)在测试阶段,使用训练获得的分类器网络对已有测试集的音频进行识别,分类器网络的估计输出期望有两种情况,一种是,当估计输出中不存在与音频特征与相对应的类标签时,接近于0;另一种是,当估计输出中存在与音频特征与相对应的类标签时,接近于1。
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。包括:
(1)设计加权模型:
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
经过计算可以得到,单声道分类器网络、左右声道分类器网络、中央边侧声道分类器网络的权重分别为:21、36、33;
(3)集成计算
H(x)表示对应输入音频信号的输出类标签,即音频场景。
Claims (4)
1.一种基于集成学习的音频场景识别方法,其特征在于,包括如下步骤:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景;包括:
(1)设计加权模型:
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
(3)集成计算
H(x)表示对应输入音频信号的输出类标签,即音频场景。
3.根据权利要求1所述的一种基于集成学习的音频场景识别方法,其特征在于,步骤2)所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为Nms,帧移大小为N/2ms,使用M个mel滤波器得到mel谱图,该谱图为提取的音频特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235050.0A CN110046655B (zh) | 2019-03-26 | 2019-03-26 | 一种基于集成学习的音频场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910235050.0A CN110046655B (zh) | 2019-03-26 | 2019-03-26 | 一种基于集成学习的音频场景识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046655A CN110046655A (zh) | 2019-07-23 |
CN110046655B true CN110046655B (zh) | 2023-03-31 |
Family
ID=67275205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910235050.0A Active CN110046655B (zh) | 2019-03-26 | 2019-03-26 | 一种基于集成学习的音频场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046655B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145726B (zh) * | 2019-10-31 | 2022-09-23 | 南京励智心理大数据产业研究院有限公司 | 基于深度学习的声场景分类方法、系统、装置及存储介质 |
CN113220932B (zh) * | 2021-04-02 | 2022-06-10 | 山东师范大学 | 一种基于多任务学习的音频场景识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568469A (zh) * | 2011-12-22 | 2012-07-11 | 清华大学 | G.729a压缩语音流信息隐藏检测装置及检测方法 |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN107609602A (zh) * | 2017-09-28 | 2018-01-19 | 吉林大学 | 一种基于卷积神经网络的驾驶场景分类方法 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
-
2019
- 2019-03-26 CN CN201910235050.0A patent/CN110046655B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568469A (zh) * | 2011-12-22 | 2012-07-11 | 清华大学 | G.729a压缩语音流信息隐藏检测装置及检测方法 |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN107609602A (zh) * | 2017-09-28 | 2018-01-19 | 吉林大学 | 一种基于卷积神经网络的驾驶场景分类方法 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
A Deep Ensemble Learning Method for Monaural Speech Separation;X. -L. Zhang , D. Wang,;《 IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20160531;论文第967-977页 * |
基于贝叶斯理论集成网络分类器在板材识别中的应用;王辉,白雪冰,丁金华,王帅,袁长峰;《大连工业大学学报》;20151231;论文第231-234页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110046655A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Adavanne et al. | Sound event detection using spatial features and convolutional recurrent neural network | |
Pham et al. | Robust acoustic scene classification using a multi-spectrogram encoder-decoder framework | |
CN103456312B (zh) | 一种基于计算听觉场景分析的单通道语音盲分离方法 | |
CN110858476B (zh) | 一种基于麦克风阵列的声音采集方法及装置 | |
CN103236258B (zh) | 基于巴氏距离最优小波包分解的语音情感特征提取方法 | |
CN112183107A (zh) | 音频的处理方法和装置 | |
CN110046655B (zh) | 一种基于集成学习的音频场景识别方法 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN114373476A (zh) | 一种基于多尺度残差注意力网络的声音场景分类方法 | |
WO2024140070A1 (zh) | 一种基于数据生成的小样本语音分离方法 | |
Zhang et al. | Teacher-student MixIT for unsupervised and semi-supervised speech separation | |
Perez-Castanos et al. | Cnn depth analysis with different channel inputs for acoustic scene classification | |
Ma et al. | Deep semantic encoder-decoder network for acoustic scene classification with multiple devices | |
Hou et al. | Cooperative scene-event modelling for acoustic scene classification | |
Luo et al. | Singing voice separation using spectro-temporal modulation features | |
EP3847646B1 (en) | An audio processing apparatus and method for audio scene classification | |
Pham et al. | A low-complexity deep learning framework for acoustic scene classification | |
CN116259313A (zh) | 一种基于时域卷积网络的声音事件定位和检测方法 | |
Xie et al. | Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification | |
Watcharasupat et al. | Improving Polyphonic Sound Event Detection on Multichannel Recordings with the S {\o} rensen-Dice Coefficient Loss and Transfer Learning | |
Pertilä et al. | Mobile microphone array speech detection and localization in diverse everyday environments | |
Lim et al. | Sound event detection in domestic environments using ensemble of convolutional recurrent neural networks | |
CN113327631B (zh) | 一种情感识别模型的训练方法、情感识别方法及装置 | |
Kek et al. | Acoustic scene classification using bilinear pooling on time-liked and frequency-liked convolution neural network | |
Cheng et al. | Improving multimodal speech enhancement by incorporating self-supervised and curriculum learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |