CN110046655B - 一种基于集成学习的音频场景识别方法 - Google Patents

一种基于集成学习的音频场景识别方法 Download PDF

Info

Publication number
CN110046655B
CN110046655B CN201910235050.0A CN201910235050A CN110046655B CN 110046655 B CN110046655 B CN 110046655B CN 201910235050 A CN201910235050 A CN 201910235050A CN 110046655 B CN110046655 B CN 110046655B
Authority
CN
China
Prior art keywords
audio
classifier
channel audio
training
classifier network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910235050.0A
Other languages
English (en)
Other versions
CN110046655A (zh
Inventor
张涛
刘赣俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910235050.0A priority Critical patent/CN110046655B/zh
Publication of CN110046655A publication Critical patent/CN110046655A/zh
Application granted granted Critical
Publication of CN110046655B publication Critical patent/CN110046655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于集成学习的音频场景识别方法,包括:将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。本发明相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。能够得到高性能的音频场景识别系统。

Description

一种基于集成学习的音频场景识别方法
技术领域
本发明涉及一种音频场景识别方法。特别是涉及一种用于多个音频场景识别子模型集成学习的基于集成学习的音频场景识别方法。
背景技术
目前,用于音频场景识别通常采用如下方法。
1、音频场景识别描述
音频场景识别的数据是在现实环境中直接采集的,就必然存在重叠声音的存在。人类生活在一个复杂的音频环境中,在忽略或简单地承认其他声音来源的同时,能够很好地遵循特定的声源。例如,我们可以在一个由其他人谈话或音乐组成的繁忙的背景下进行谈话。音频场景识别自动分类的性能在这一任务中受到了很大的限制。声混合信号包含多个同时发生的声音事件,机器听觉系统在识别这些声音事件方面还远远没有达到人类的水平。单个的声音事件可以用来描述一个音频场景:它们可以以一种象征性的方式来代表一个繁忙街道上的场景,汽车经过,汽车喇叭和人们匆忙的脚步。
音频场景识别与分类的目的是对声音信号进行处理,将其转化为现场出现的相应声音事件的符号描述,用于自动标注、自动声音分析或音频分割等应用。以往与音频场景识别相关的研究都是考虑带有显式标注的重叠事件的音频场景,但是检测结果是以序列的形式呈现的,假设每次只包含最显著的事件。在这方面,系统每次只能找到一个场景,如果检测到的场景包含在注释中,则评估会认为输出是正确的。在多源环境中,这种系统的性能非常有限。
2、卷积神经网络工作原理
卷积神经网络(Convolutional Neural Network,CNN)是一种深度的监督学习下的机器学习模型,具有极强的适应性,善于挖掘数据局部特征,提取全局训练特征和分类,它的权值共享结构网络使之更类似于生物神经网络,一定程度上减轻了DNN的参数数量膨胀问题。相比于常规的深度学习方法,CNN不仅可以处理高维数据,具有捕获局部特性的特点,还可以捕获经常性的局部结特性。在处理复杂且存在重叠的日常音频信号时,具有明显的有效性和优势性。
对于CNN来说,不是所有的上下层神经元都能直接相连,而需要通过“卷积核”作为中介。同一个卷积核在多有图像内是共享的,图像通过卷积操作仍能保留原先的位置关系。
CNN卷积神经网络包括输入层、卷积层、池化层、全接连层、输出层。卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。其输出层节点数一般等于分类类别数,即采用独热编码方式对标签进行编码。
发明内容
本发明所要解决的技术问题是,提供一种训练集准确率高、适用多种音频场景基于集成学习的音频场景识别方法。
本发明所采用的技术方案是:一种基于集成学习的音频场景识别方法,包括如下步骤:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。
步骤1)中所述的单声道音频信号和中央边侧声道音频信号的获取是:
由左右声道音频信号生成单声道音频信号:
Figure BDA0002007355960000021
其中,Mono表示单声道音频信号,L表示左声道音频信号,R表示右声道音频信号;
由左右声道音频信号生成中央边侧声道音频信号:Mid=L+R,Sid=L-R,其中Mid表示中央声道音频信号,Sid表示边侧声道音频信号。
步骤2)所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为N ms,帧移大小为N/2ms,使用M个mel滤波器得到mel谱图,该谱图为提取的音频特征。
步骤3)包括:
(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对;
(2)使用分类器网络学习音频特征与对应的类标签之间的映射;
(3)在测试阶段,使用训练获得的分类器网络对已有测试集的音频进行识别,分类器网络的估计输出
Figure BDA0002007355960000022
期望有两种情况,一种是,当估计输出中不存在与音频特征与相对应的类标签时,
Figure BDA0002007355960000023
接近于0;另一种是,当估计输出中存在与音频特征与相对应的类标签时,
Figure BDA0002007355960000024
接近于1。
步骤4)包括:
(1)设计加权模型:
Figure BDA0002007355960000025
其中,x是输入数据,wi为第i个分类器网络的权重,满足:
Figure BDA0002007355960000026
hi(x)第i个分类器网络的预测标签,N为分类器网络的个数;
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
Figure BDA0002007355960000027
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
Figure BDA0002007355960000031
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
Figure BDA0002007355960000032
(3)集成计算
Figure BDA0002007355960000033
H(x)表示对应输入音频信号的输出类标签,即音频场景。
本发明的一种基于集成学习的音频场景识别方法,采用集成学习法对所有单个分类器网络分类结果进行集成学习,设置最佳的权重参数,获得较好的分类性能,相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。因此,基于集成学习的音频场景识别方法能够得到高性能的音频场景识别系统。
附图说明
图1是本发明一种基于集成学习的音频场景识别方法的系统框架示意图;
图2a是本发明中单通道分类器网络的结构框图;
图2b是本发明中双通道分类器网络的结构框图。
具体实施方式
下面结合实施例和附图对本发明的一种基于集成学习的音频场景识别方法做出详细说明。
如图1所示,本发明的一种基于集成学习的音频场景识别方法,包括如下步骤:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
所述的单声道音频信号和中央边侧声道音频信号的获取是:
由左右声道音频信号生成单声道音频信号:
Figure BDA0002007355960000034
其中,Mono表示单声道音频信号,L表示左声道音频信号,R表示右声道音频信号;
由左右声道音频信号生成中央边侧声道音频信号:Mid=L+R,Sid=L-R,其中Mid表示中央声道音频信号,Sid表示边侧声道音频信号。
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路,如图2a和图2b所示,其中,图2a用于单声道音频信号的训练,图2b用于左右声道音频信号和中央边侧声道音频信号的训练;
所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为N ms,帧移大小为N/2ms,使用M个mel滤波器得到mel谱图,该谱图为提取的音频特征。
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;包括:
(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对;
(2)使用分类器网络学习音频特征与对应的类标签之间的映射;
(3)在测试阶段,使用训练获得的分类器网络对已有测试集的音频进行识别,分类器网络的估计输出
Figure BDA0002007355960000041
期望有两种情况,一种是,当估计输出中不存在与音频特征与相对应的类标签时,
Figure BDA0002007355960000042
接近于0;另一种是,当估计输出中存在与音频特征与相对应的类标签时,
Figure BDA0002007355960000043
接近于1。
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。包括:
(1)设计加权模型:
Figure BDA0002007355960000044
其中,x是输入数据,wi为第i个分类器网络的权重,满足:
Figure BDA0002007355960000045
hi(x)第i个分类器网络的预测标签,N为分类器网络的个数;
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
Figure BDA0002007355960000046
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
Figure BDA0002007355960000047
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
Figure BDA0002007355960000051
(3)集成计算
Figure BDA0002007355960000052
H(x)表示对应输入音频信号的输出类标签,即音频场景。
从表1 Mono+CNN方法、LR+CNN方法、MS+CNN方法和本发明的基于集成学习的方法的对比中可以看出基于集成学习的音频场景识别方法,分类准确率达到了72.7%,相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。因此,基于集成学习的音频场景识别方法能够得到高性能的音频场景识别系统。
表1音频场景识别系统准确率
Figure BDA0002007355960000053
下面给出具体实例:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
所述的单声道音频信号和中央边侧声道音频信号的获取是:
由左右声道音频信号生成单声道音频信号:
Figure BDA0002007355960000054
其中,Mono表示单声道音频信号,L表示左声道音频信号,R表示右声道音频信号;
由左右声道音频信号生成中央边侧声道音频信号:Mid=L+R,Sid=L-R,其中Mid表示中央声道音频信号,Sid表示边侧声道音频信号。
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路,如图2a和图2b所示,其中,图2a用于单声道音频信号的训练,图2b用于左右声道音频信号和中央边侧声道音频信号的训练;
所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为46ms,帧移大小为23ms,使用128个mel滤波器得到mel谱图,该谱图为提取的音频特征。
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;包括:
(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对;
(2)使用分类器网络学习音频特征与对应的类标签之间的映射;
(3)在测试阶段,使用训练获得的分类器网络对已有测试集的音频进行识别,分类器网络的估计输出
Figure BDA0002007355960000061
期望有两种情况,一种是,当估计输出中不存在与音频特征与相对应的类标签时,
Figure BDA0002007355960000062
接近于0;另一种是,当估计输出中存在与音频特征与相对应的类标签时,
Figure BDA0002007355960000063
接近于1。
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。包括:
(1)设计加权模型:
Figure BDA0002007355960000064
其中,x是输入数据,wi为第i个分类器网络的权重,满足:
Figure BDA0002007355960000065
hi(x)第i个分类器网络的预测标签,N为分类器网络的个数;
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
Figure BDA0002007355960000066
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
Figure BDA0002007355960000067
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
Figure BDA0002007355960000068
经过计算可以得到,单声道分类器网络、左右声道分类器网络、中央边侧声道分类器网络的权重分别为:21、36、33;
(3)集成计算
Figure BDA0002007355960000069
H(x)表示对应输入音频信号的输出类标签,即音频场景。

Claims (4)

1.一种基于集成学习的音频场景识别方法,其特征在于,包括如下步骤:
1)将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;
2)对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;
3)将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;
4)将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景;包括:
(1)设计加权模型:
Figure FDA0003967333530000011
其中,x是输入数据,wi为第i个分类器网络的权重,满足:
Figure FDA0003967333530000012
hi(x)第i个分类器网络的预测标签,N为分类器网络的个数;
(2)分别计算每个分类器的权重wi
假设pi(x)表示第i个分类器网络的预测概率,总共有N个分类器网络,每个分类器网络的预测误差为:
Figure FDA0003967333530000013
其中,H为集成学习的输出标签;
令第i个分类器网络与第j个分类器网络之间的协方差Cij为:
Cij=∫(hi(x)-f(x))(hj(x)-f(x))p(x)dx (3)
则协方差Cij优化目标表示为:
Figure FDA0003967333530000014
使用拉格朗日乘子法,求得第i个分类器网络的权重wi
Figure FDA0003967333530000015
(3)集成计算
Figure FDA0003967333530000016
H(x)表示对应输入音频信号的输出类标签,即音频场景。
2.根据权利要求1所述的一种基于集成学习的音频场景识别方法,其特征在于,步骤1)中所述的单声道音频信号和中央边侧声道音频信号的获取是:
由左右声道音频信号生成单声道音频信号:
Figure FDA0003967333530000021
其中,Mono表示单声道音频信号,L表示左声道音频信号,R表示右声道音频信号;
由左右声道音频信号生成中央边侧声道音频信号:Mid=L+R,Sid=L-R,其中Mid表示中央声道音频信号,Sid表示边侧声道音频信号。
3.根据权利要求1所述的一种基于集成学习的音频场景识别方法,其特征在于,步骤2)所述的特征提取包括:
(1)对音频信号进行下采样,将不同采样频率的音频数据统一转化为44.1kHz;
(2)分帧加窗处理:设定短时傅里叶变换的帧长为Nms,帧移大小为N/2ms,使用M个mel滤波器得到mel谱图,该谱图为提取的音频特征。
4.根据权利要求1所述的一种基于集成学习的音频场景识别方法,其特征在于,步骤3)包括:
(1)将提取的训练集的音频特征和对应的类标签组成一组输入-输出对;
(2)使用分类器网络学习音频特征与对应的类标签之间的映射;
(3)在测试阶段,使用训练获得的分类器网络对已有测试集的音频进行识别,分类器网络的估计输出
Figure FDA0003967333530000022
期望有两种情况,一种是,当估计输出中不存在与音频特征与相对应的类标签时,
Figure FDA0003967333530000023
接近于0;另一种是,当估计输出中存在与音频特征与相对应的类标签时,
Figure FDA0003967333530000024
接近于1。
CN201910235050.0A 2019-03-26 2019-03-26 一种基于集成学习的音频场景识别方法 Active CN110046655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910235050.0A CN110046655B (zh) 2019-03-26 2019-03-26 一种基于集成学习的音频场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910235050.0A CN110046655B (zh) 2019-03-26 2019-03-26 一种基于集成学习的音频场景识别方法

Publications (2)

Publication Number Publication Date
CN110046655A CN110046655A (zh) 2019-07-23
CN110046655B true CN110046655B (zh) 2023-03-31

Family

ID=67275205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910235050.0A Active CN110046655B (zh) 2019-03-26 2019-03-26 一种基于集成学习的音频场景识别方法

Country Status (1)

Country Link
CN (1) CN110046655B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145726B (zh) * 2019-10-31 2022-09-23 南京励智心理大数据产业研究院有限公司 基于深度学习的声场景分类方法、系统、装置及存储介质
CN113220932B (zh) * 2021-04-02 2022-06-10 山东师范大学 一种基于多任务学习的音频场景识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568469A (zh) * 2011-12-22 2012-07-11 清华大学 G.729a压缩语音流信息隐藏检测装置及检测方法
CN107545890A (zh) * 2017-08-31 2018-01-05 桂林电子科技大学 一种声音事件识别方法
CN107609602A (zh) * 2017-09-28 2018-01-19 吉林大学 一种基于卷积神经网络的驾驶场景分类方法
CN108615532A (zh) * 2018-05-03 2018-10-02 张晓雷 一种应用于声场景的分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568469A (zh) * 2011-12-22 2012-07-11 清华大学 G.729a压缩语音流信息隐藏检测装置及检测方法
CN107545890A (zh) * 2017-08-31 2018-01-05 桂林电子科技大学 一种声音事件识别方法
CN107609602A (zh) * 2017-09-28 2018-01-19 吉林大学 一种基于卷积神经网络的驾驶场景分类方法
CN108615532A (zh) * 2018-05-03 2018-10-02 张晓雷 一种应用于声场景的分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Deep Ensemble Learning Method for Monaural Speech Separation;X. -L. Zhang , D. Wang,;《 IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20160531;论文第967-977页 *
基于贝叶斯理论集成网络分类器在板材识别中的应用;王辉,白雪冰,丁金华,王帅,袁长峰;《大连工业大学学报》;20151231;论文第231-234页 *

Also Published As

Publication number Publication date
CN110046655A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
Adavanne et al. Sound event detection using spatial features and convolutional recurrent neural network
Pham et al. Robust acoustic scene classification using a multi-spectrogram encoder-decoder framework
CN103456312B (zh) 一种基于计算听觉场景分析的单通道语音盲分离方法
CN110858476B (zh) 一种基于麦克风阵列的声音采集方法及装置
CN103236258B (zh) 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN112183107A (zh) 音频的处理方法和装置
CN110046655B (zh) 一种基于集成学习的音频场景识别方法
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN114373476A (zh) 一种基于多尺度残差注意力网络的声音场景分类方法
WO2024140070A1 (zh) 一种基于数据生成的小样本语音分离方法
Zhang et al. Teacher-student MixIT for unsupervised and semi-supervised speech separation
Perez-Castanos et al. Cnn depth analysis with different channel inputs for acoustic scene classification
Ma et al. Deep semantic encoder-decoder network for acoustic scene classification with multiple devices
Hou et al. Cooperative scene-event modelling for acoustic scene classification
Luo et al. Singing voice separation using spectro-temporal modulation features
EP3847646B1 (en) An audio processing apparatus and method for audio scene classification
Pham et al. A low-complexity deep learning framework for acoustic scene classification
CN116259313A (zh) 一种基于时域卷积网络的声音事件定位和检测方法
Xie et al. Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification
Watcharasupat et al. Improving Polyphonic Sound Event Detection on Multichannel Recordings with the S {\o} rensen-Dice Coefficient Loss and Transfer Learning
Pertilä et al. Mobile microphone array speech detection and localization in diverse everyday environments
Lim et al. Sound event detection in domestic environments using ensemble of convolutional recurrent neural networks
CN113327631B (zh) 一种情感识别模型的训练方法、情感识别方法及装置
Kek et al. Acoustic scene classification using bilinear pooling on time-liked and frequency-liked convolution neural network
Cheng et al. Improving multimodal speech enhancement by incorporating self-supervised and curriculum learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant