CN111354372A - 一种基于前后端联合训练的音频场景分类方法及系统 - Google Patents
一种基于前后端联合训练的音频场景分类方法及系统 Download PDFInfo
- Publication number
- CN111354372A CN111354372A CN201811571542.9A CN201811571542A CN111354372A CN 111354372 A CN111354372 A CN 111354372A CN 201811571542 A CN201811571542 A CN 201811571542A CN 111354372 A CN111354372 A CN 111354372A
- Authority
- CN
- China
- Prior art keywords
- network
- digital sound
- neural network
- training
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于前后端联合训练的音频场景分类方法及系统,所述方法包括:对待分类的数字声音信号进行处理得到幅度谱图,将幅度谱图输入基于前后端联合训练得到的深度学习神经网络,输出所述对待分类的数字声音信号的每一帧的预测概率,将每一帧的预测概率取对数后求平均,最大值对应的类别为音频场景分类结果。本发明的方法使用联合训练同时训练网络的前端滤波器部分和后端的深度卷积神经网络,从而使滤波器从人为的先验知识转化为当前任务限定,能够取得更高的分类准确率。
Description
技术领域
本发明涉及音频场景分类领域,特别涉及一种前后端联合训练的音频场景分类方法及系统。
背景技术
音频场景分类是指识别录制音频的特定场景,可以使穿戴式设备、智能机器人等拥有通过声音感知周围的环境的能力。
传统的音频场景分类系统大都分为前端和后端部分。前端使用人为设计的滤波器来提取音频特征,常见的滤波器有梅尔滤波器和小波滤波器等。但是,这些滤波器的设计并没有结合当前的任务信息,特别是滤波器的形状大都是一些简单的函数,如梅尔滤波器的三角函数和小波滤波器的高斯形状。后端使用深度卷积神经网络框架,根据导数的链式法则更新梯度,其输入为音频特征,输出为帧级预测系数。在传统的系统中,前端的设计几乎不依赖于任务数据,后端的训练与前端是割裂的。
发明内容
本发明的目的在于改进传统场景识别系统中前后端设计,将前端的滤波器组和后端的深度卷积网络依次嵌入到神经网络中,进行联合训练。
为了实现上述目的,本发明提供了一种基于前后端联合训练的音频场景分类方法,包括:
对待分类的数字声音信号进行处理得到幅度谱图,将幅度谱图输入基于前后端联合训练得到的深度学习神经网络,输出所述对待分类的数字声音信号的每一帧的预测概率,将每一帧的预测概率取对数后求平均,最大值对应的类别为音频场景分类结果。
作为上述方法的一种改进,所述深度学习神经网络的训练步骤包括:
步骤1)对训练样本集的所有数字声音信号进行预处理,然后将其转化为频谱;对频谱去除相位信息,得到数字声音信号的幅度谱图;
步骤2)构建用于场景分类的深度学习神经网络,包括网络前端和网络后端;
步骤3)将训练样本集的数字声音信号的幅度谱图作为输入,结合分类标签,通过反向传播算法,基于前后端联合训练对深度学习神经网络进行迭代直至收敛,得到训练好的深度学习神经网络。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)对训练样本集的数字声音信号进行分帧和加窗;对每一帧数字声音信号补零到N点,N=2i,i为正整数,且N大于等于每一帧的采样点数;
步骤1-2)对每一帧数字声音信号做快速傅里叶变换,得到频谱数据;
步骤1-3)去除频谱数据的相位信息,保留幅度信息,得到数字声音信号的幅度谱图S(t,f):
S(t,f)=|X(t,f)|
其中,X(t,f)为第t帧第f个频点的傅里叶变换系数。
作为上述方法的一种改进,所述网络前端为滤波器组,其输入为数字声音信号的幅度谱图S(t,f),输出为特征C(t,k):
其中,Fk(f)是第k个滤波器的权重系数,start(k)和end(k)是第k个滤波器的开始频率和截止频率。
作为上述方法的一种改进,所述网络后端依次包括一个批归一化层,四个卷积层,三个全连接层和一个分类层;每个卷积层依次包括卷积操作,批归一化和激活函数;其中,卷积操作使用的一维卷积核的大小为3,步长为1,输出信道个数为输入信道个数的两倍;
每个全连接层依次包括线性变换,批归一化,激活函数和Dropout;所述激活函数的表达式为:
g(x)=max(0,x)
其中,x为函数变量;
所述分类层包括线性变换和SoftMax函数。
作为上述方法的一种改进,所述步骤3)进一步包括:
步骤3-1)设置网络前端的滤波器组的初始参数值,所述参数值包括:滤波器组的起始频率和截至频率,以及在此频率范围内的滤波器组权重值;
步骤3-2)固定步骤3-1)的网络前端,将训练样本集的数字声音信号的幅度图谱作为输入,结合分类标签,用第一学习率对网络后端进行训练,直到深度学习神经网络收敛;
所述网络收敛判断的目标损失函数loss为:
步骤3-3)将网络前端解除固定,网络后端采用步骤3-2)收敛的深度学习神经网络的网络后端,将训练样本集的数字声音信号的幅度图谱作为输入,结合分类标签,用第二学习率对整个深度学习神经网络进行训练,直到深度学习神经网络收敛,得到训练好的深度学习神经网络。
作为上述方法的一种改进,所述第一学习率取值为10-3;所述第二学习率取值为5×10-6。
一种基于前后端联合训练的音频场景分类系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求上述方法的步骤。
本发明的优点在于:
1、本发明的方法利用了人为设定的滤波器的先验知识来初始化网络的前端部分,一定程度上减小了网络训练的难度,使网络更容易收敛;
2、本发明提出用联合训练同时训练网络的前端滤波器部分和后端的深度卷积神经网络,从而使滤波器从人为的先验知识转化为当前任务限定,能够取得更高的分类准确率。
附图说明
图1是本发明的基于前后端联合训练的音频场景分类方法的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
一种基于前后端联合训练的音频场景分类方法,包括以下步骤:
步骤1)构建和训练用于场景分类的深度学习神经网络;如图1所示,具体包括:
步骤101)对训练数据集的音频信号进行预处理,然后将其转化为频谱。
对音频信号进行预处理包括:对音频分帧,加窗,窗函数为汉明窗。对每一帧的数字声音信号补零到N点,N=2i,i为整数,且N大于等于每一帧的采样点数。对每一帧做快速傅里叶变换,得到频谱。
步骤102)基于步骤101)得到的频谱进行处理,去除相位信息,保留幅度信息。
所述去除频谱X的相位信息,保留幅度信息,
S(t,f)=|X(t,f)|
其中X(t,f)为第t帧第f个频点的傅里叶变换系数,S为最后得到的幅度谱图。
步骤103)初始化滤波器组参数,记录下滤波器的起始频率和截至频率,以及在此频率范围内的滤波器组权值。
步骤104)基于步骤103)的滤波器组的频率范围,对神经网络的前端的滤波器初始化,初始值为预定义的滤波器系数,然后构建网络前端的计算图。
网络前端输出的计算,
其中计算图的输入为步骤102)得到的S(t,f),输出为特征C(t,k)。Fk(f)是第k个滤波器的权重系数,start(k)和end(k)是第k个滤波器的开始频率和截止频率,这些参数根据步骤103)的滤波器组权值初始化。
步骤105)构建神经网络后端的计算图,架构为深度卷积神经网络;具体框架为:
网络后端的框架依次包括一个批归一化层,四个卷积层,三个全连接层和一个分类层。网络中使用的激活函数的是修正线性单元,其表达式为:
g(x)=max(0,x)
每个卷积层依次包括卷积操作,批归一化和激活函数。其中卷积操作使用的一维卷积核的大小为3,步长为1,输出信道个数为输入信道个数的两倍。每个全连接层依次包括线性变换,批归一化,激活函数和Dropout。分类层使用线性变换和SoftMax函数,后者的表达式为:
其中m和n代表音频场景的类别,一共有M类,a代表经过线性变换后的输出,y代表网络预测的输出。
步骤106)基于步骤104)和步骤105)构建的网络,通过反向传播算法对网络进行迭代训练,网络输入为步骤102)的幅度谱,网络输出为每一帧的预测概率,期望为独热码。
目标损失函数为:
步骤106-1)固定网络的前端,用较大的学习率只对网络的后端进行训练,直到网络收敛;优选的,较大的学习率为10-3;
步骤106-2)将网络的前端解除固定,用较小的学习率对整个网络进行训练,直到网络收敛。优选的,较小的学习率取值为5×10-6。
步骤2)对待分类的音频信号进行预处理,然后将其转化为频谱;对得到的频谱进行处理,去除相位信息,保留幅度信息;将幅度谱图输入训练好的深度学习神经网络,输出所述对待分类的数字声音信号的每一帧的预测概率,将每一帧的预测概率取对数后求平均,最大值对应的类别为音频场景分类结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于前后端联合训练的音频场景分类方法,包括:
对待分类的数字声音信号进行处理得到幅度谱图,将幅度谱图输入基于前后端联合训练得到的深度学习神经网络,输出所述对待分类的数字声音信号的每一帧的预测概率,将每一帧的预测概率取对数后求平均,最大值对应的类别为音频场景分类结果。
2.根据权利要求1所述的基于前后端联合训练的音频场景分类方法,其特征在于,所述深度学习神经网络的训练步骤包括:
步骤1)对训练样本集的所有数字声音信号进行预处理,然后将其转化为频谱;对频谱去除相位信息,得到数字声音信号的幅度谱图;
步骤2)构建用于场景分类的深度学习神经网络,包括网络前端和网络后端;
步骤3)将训练样本集的数字声音信号的幅度谱图作为输入,结合分类标签,通过反向传播算法,基于前后端联合训练对深度学习神经网络进行迭代直至收敛,得到训练好的深度学习神经网络。
3.根据权利要求2所述的基于前后端联合训练的音频场景分类方法,其特征在于,所述步骤1)具体包括:
步骤1-1)对训练样本集的数字声音信号进行分帧和加窗;对每一帧数字声音信号补零到N点,N=2i,i为正整数,且N大于等于每一帧的采样点数;
步骤1-2)对每一帧数字声音信号做快速傅里叶变换,得到频谱数据;
步骤1-3)去除频谱数据的相位信息,保留幅度信息,得到数字声音信号的幅度谱图S(t,f):
S(t,f)=|X(t,f)|
其中,X(t,f)为第t帧第f个频点的傅里叶变换系数。
5.根据权利要求4所述的基于前后端联合训练的音频场景分类方法,其特征在于,所述网络后端依次包括一个批归一化层,四个卷积层,三个全连接层和一个分类层;每个卷积层依次包括卷积操作,批归一化和激活函数;其中,卷积操作使用的一维卷积核的大小为3,步长为1,输出信道个数为输入信道个数的两倍;
每个全连接层依次包括线性变换,批归一化,激活函数和Dropout;所述激活函数的表达式为:
g(x)=max(0,x)
其中,x为函数变量;
所述分类层包括线性变换和SoftMax函数。
6.根据权利要求5所述的基于前后端联合训练的音频场景分类方法,其特征在于,所述步骤3)进一步包括:
步骤3-1)设置网络前端的滤波器组的初始参数值,所述参数值包括:滤波器组的起始频率和截至频率,以及在此频率范围内的滤波器组权重值;
步骤3-2)固定步骤3-1)的网络前端,将训练样本集的数字声音信号的幅度图谱作为输入,结合分类标签,用第一学习率对网络后端进行训练,直到深度学习神经网络收敛;
所述网络收敛判断的目标损失函数loss为:
步骤3-3)将网络前端解除固定,网络后端采用步骤3-2)收敛的深度学习神经网络的网络后端,将训练样本集的数字声音信号的幅度图谱作为输入,结合分类标签,用第二学习率对整个深度学习神经网络进行训练,直到深度学习神经网络收敛,得到训练好的深度学习神经网络。
7.根据权利要求6所述的基于前后端联合训练的音频场景分类方法,其特征在于,所述第一学习率取值为10-3;所述第二学习率取值为5×10-6。
8.一种基于前后端联合训练的音频场景分类系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571542.9A CN111354372B (zh) | 2018-12-21 | 2018-12-21 | 一种基于前后端联合训练的音频场景分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571542.9A CN111354372B (zh) | 2018-12-21 | 2018-12-21 | 一种基于前后端联合训练的音频场景分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111354372A true CN111354372A (zh) | 2020-06-30 |
CN111354372B CN111354372B (zh) | 2023-07-18 |
Family
ID=71196931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811571542.9A Active CN111354372B (zh) | 2018-12-21 | 2018-12-21 | 一种基于前后端联合训练的音频场景分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354372B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397075A (zh) * | 2020-12-10 | 2021-02-23 | 北京猿力未来科技有限公司 | 一种人声音频识别模型训练方法、音频分类方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN108694346A (zh) * | 2017-04-05 | 2018-10-23 | 中国科学院声学研究所 | 一种基于两级cnn的船舶辐射噪声信号识别方法 |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
-
2018
- 2018-12-21 CN CN201811571542.9A patent/CN111354372B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN108694346A (zh) * | 2017-04-05 | 2018-10-23 | 中国科学院声学研究所 | 一种基于两级cnn的船舶辐射噪声信号识别方法 |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN108922560A (zh) * | 2018-05-02 | 2018-11-30 | 杭州电子科技大学 | 一种基于混合深度神经网络模型的城市噪声识别方法 |
CN108847223A (zh) * | 2018-06-20 | 2018-11-20 | 陕西科技大学 | 一种基于深度残差神经网络的语音识别方法 |
Non-Patent Citations (2)
Title |
---|
何小飞等: "联合显著性和多层卷积神经网络的高分影像场景分类", 《测绘学报》 * |
刘异等: "联合Fisher核编码和卷积神经网络的影像场景分类", 《遥感信息》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397075A (zh) * | 2020-12-10 | 2021-02-23 | 北京猿力未来科技有限公司 | 一种人声音频识别模型训练方法、音频分类方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111354372B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3926623B1 (en) | Speech recognition method and apparatus, and neural network training method and apparatus | |
CN108172213B (zh) | 娇喘音频识别方法、装置、设备及计算机可读介质 | |
KR102605736B1 (ko) | 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치 | |
CN109890043B (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
JP2003526142A (ja) | 一般ガウス混合モデルを使用するマルチソース・データの非監視適応および分類 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112767927A (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN113191178B (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
JP2020071482A (ja) | 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体 | |
CN103761965A (zh) | 一种乐器信号的分类方法 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
KR102204975B1 (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
CN113111786B (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN111354373B (zh) | 一种基于神经网络中间层特征滤波的音频信号分类方法 | |
CN111354372A (zh) | 一种基于前后端联合训练的音频场景分类方法及系统 | |
CN116403594B (zh) | 基于噪声更新因子的语音增强方法和装置 | |
Agcaer et al. | Optimization of amplitude modulation features for low-resource acoustic scene classification | |
WO2016197629A1 (en) | System and method for frequency estimation | |
CN113314148B (zh) | 基于原始波形的轻量级神经网络生成语音鉴别方法和系统 | |
CN113609970A (zh) | 基于分组卷积深度U_Net的水下目标识别方法 | |
CN103903631A (zh) | 基于变步长自然梯度算法的语音信号盲分离方法 | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
JP7024615B2 (ja) | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |