CN109978034A - 一种基于数据增强的声场景辨识方法 - Google Patents
一种基于数据增强的声场景辨识方法 Download PDFInfo
- Publication number
- CN109978034A CN109978034A CN201910201430.2A CN201910201430A CN109978034A CN 109978034 A CN109978034 A CN 109978034A CN 201910201430 A CN201910201430 A CN 201910201430A CN 109978034 A CN109978034 A CN 109978034A
- Authority
- CN
- China
- Prior art keywords
- data
- audio
- sample
- sound
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000010276 construction Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000002203 pretreatment Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000000087 stabilizing effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于数据增强的声场景辨识方法,包括下列步骤:首先采集并标注不同声场景的音频样本;然后预处理,对音频样本进行预加重、分帧和加窗处理;接着进行数据增强,提取各音频样本的谐波源和冲击源,得到更充足的音频样本,从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征,再将上述三个特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造更丰富的训练样本;最后将上述三通道高维特征输入到Xception网络进行判决,辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力,稳定网络的训练过程。在对声场景进行辨识时,本方法可取得更优的辨识效果。
Description
技术领域
本发明涉及音频信号处理和深度学习技术领域,具体涉及一种基于数据增强的声场景辨识方法。
背景技术
音频信号含有丰富的信息,并具有非接触性、自然性的优势。声场景则是音频信号在语义层面上的高级表示。声场景辨识的任务是将语义标签和音频流相关联,标识声音产生环境的类别。该技术能使智能设备根据声音感知周围环境,从而做出恰当的决策。目前音频数据海量增长,由于人工标注数据非常耗时耗力,因此有准确标签的音频样本非常少。没有标签的音频样本是不能直接用来训练分类器的。如何基于有限的有标签音频样本构造更加多样性的训练数据从而构建更具泛化能力的分类器,是目前声场景辨识任务需要解决的主要问题之一。目前主要采用人工标注的方式增加有标签数据的多样性,但人工标注成本非常高。另外,在不同的分类任务中需要重新标注数据样本,不具备通用性,使得人工标注的成本更加高。为了克服人工标注数据成本高、有标签训练数据不足的问题,目前亟待采用数据增强的方法,增加有限的有标签音频数据的多样性,从而提高对复杂分类器的适应性及其泛化能力。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于数据增强的声场景辨识方法,该方法对音频数据集进行数据增强处理,并将其相应堆叠后得到的三通道高维声学特征输入Xception网络分类器进行训练,训练完毕后对测试集数据进行测试,实现声场景辨识。
本发明的目的可以通过采取如下技术方案达到:
一种基于数据增强的声场景辨识方法,所述的声场景辨识方法包括:
S1、音频样本准备步骤,利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集;
S2、预处理步骤,分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理;
S3、数据增强步骤,分离各音频样本的谐波源和冲击源,再分别提取音频样本、谐波源、冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据;
S4、声场景辨识步骤,将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
进一步地,所述的S1、音频样本准备步骤过程如下:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit;
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
进一步地,所述的S2、预处理步骤过程如下:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1,
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
其中,N表示帧长,取值为400。
进一步地,所述的S3、数据增强步骤过程如下:
S3.1、对音频进行谐波源和冲击源分离,定义代价函数J(H,P):
Hk,t+Pk,t=Wk,t,
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;
令代价函数的偏导满足:
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,其中,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行对数梅尔滤波器组特征提取,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp;
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
S3.4、采用混合增强方法对训练数据进行数据增强。
进一步地,所述的步骤S3.4、采用混合增强方法对训练数据进行数据增强过程如下:
构建新的训练样本数据
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,表示新训练数据,表示相应的新数据标签,表示取整运算,参数λ服从贝塔分布:
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为方差为取α=β,u为积分变量。
进一步地,所述的S4、声场景辨识步骤如下:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
其中,C为声场景类别的数目,为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数为目标;
S4.2、输出辨识结果,训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
本发明相对于现有技术具有如下的优点及效果:
1、本发明将Xception网络应用于声场景辨识,能有效建模复杂声场景,相比于传统的高斯混合模型、支持向量机等分类器能取得更佳的辨识结果。
2、本发明对可用的有限音频数据进行数据增强处理,增加了音频数据的多样性,减少了人工标注的数据量,提高了分类器训练效率;另外,数据增强处理也挖掘出了数据之间的潜在区分特性,使辨识效果更优异。
附图说明
图1是本发明公开的一种基于数据增强的声场景辨识方法的流程步骤图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于数据增强的声场景辨识方法的具体实施过程,如图1所示,该声场景辨识方法具体步骤操作如下:
S1、音频样本准备:利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集。
在本实施例中,该步骤具体包括以下步骤:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit。
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
S2、预处理:分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理。
在本实施例中,该步骤具体包括以下步骤:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1,
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
其中,N表示帧长(采样点个数),取值为400。
S3、数据增强:分离各音频样本的谐波源和冲击源,再分别提取音频样本及其谐波源和冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据。
在本实施例中,该步骤具体包括以下步骤:
S3.1、对音频进行谐波源和冲击源分离:定义代价函数J(H,P):
Hk,t+Pk,t=Wk,t,
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;令代价函数的偏导满足:
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行步骤S3.2处理,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp;
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
S3.4、采用混合增强方法对训练数据进行数据增强,构建新的训练样本数据
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,表示新训练数据,表示相应的新数据标签,表示取整运算,参数λ服从贝塔分布:
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为方差为取α=β,u为积分变量。
S4、声场景辨识:将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
在本实施例中,该步骤具体包括以下步骤:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
其中,C为声场景类别的数目,为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数为目标,具体的训练方法详见参考文献: Chollet.Xception:Deep Learning with Depthwise SeparableConvolutions,2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017,pp.1800-1807;
S4.2、输出辨识结果:训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于数据增强的声场景辨识方法,其特征在于,所述的声场景辨识方法包括:
S1、音频样本准备步骤,利用录音设备在不同声场景采集音频样本,并进行人工标注,然后将上述音频样本划分为训练集和测试集;
S2、预处理步骤,分别对训练集和测试集中音频样本进行预加重、分帧、加窗处理;
S3、数据增强步骤,分离各音频样本的谐波源和冲击源,再分别提取音频样本、谐波源、冲击源的对数梅尔滤波器组特征,再将上述三个对数梅尔滤波器组特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造新的训练样本数据;
S4、声场景辨识步骤,将上述各音频样本的三通道高维特征输入已训练好的Xception网络,得到各音频样本的声场景类别。
2.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S1、音频样本准备步骤过程如下:
S1.1、利用录音设备采集音频数据:在不同场景放置录音设备,记录相应场景的音频样本,其采样频率为16kHz,量化位数为16bit;
S1.2、划分数据集:将标注好的音频样本随机划分为不相交的训练集与测试集,其中训练集占比约为80%,测试集占比约为20%。
3.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S2、预处理步骤过程如下:
S2.1、预加重:利用数字滤波器对输入音频进行滤波,该滤波器的传递函数为:
H(z)=1-az-1,
其中a为常数,取值为0.96;
S2.2、分帧:将预加重后的音频按照帧长40ms切分成音频帧,帧移为20ms;
S2.3、加窗:采用汉明窗作为窗函数,并与各音频帧相乘实现加窗处理,窗函数ω(n)采用汉明窗:
其中,N表示帧长,取值为400。
4.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S3、数据增强步骤过程如下:
S3.1、对音频进行谐波源和冲击源分离,定义代价函数J(H,P):
Hk,t+Pk,t=Wk,t,
Hk,t≥0,Pk,t≥0,
其中,k和t分别表示频率和时间,σH与σP分别表示控制谐波源和冲击源平滑度的参数因子,Hk,t、Pk,t分别表示第t帧谐波源、冲击源的频谱,Wk,t表示第t帧音频的能量谱,H和P是Hk,t和Pk,t的集合;
令代价函数的偏导满足:
即可最小化J(H,P),从而得到Hk,t和Pk,t,分别对Hk,t和Pk,t进行短时傅里叶逆变换,得到相应的谐波源ht(n)与冲击源pt(n);
S3.2、提取对数梅尔滤波器组特征,过程如下:
S3.2.1、对第t帧音频信号xt(n)进行离散傅立叶变换操作,得到其线性频谱Xt(k):
S3.2.2、对上述线性频谱Xt(k)进行梅尔频率滤波器组滤波,获得其梅尔频谱,其中,梅尔频率滤波器组为若干个带通滤波器Hm(k),M为滤波器的个数,每个滤波器具有三角形滤波特性,即其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:
其中,f(m)定义如下:
其中,fl、fh分别表示滤波器的最低频率和最高频率,fs表示采样频率,B-1为B的逆函数:
B-1(b)=700(eb/1125-1),
故可得第t帧音频数据的对数梅尔滤波器组特征LF为:
LF=ln[Xt(k)Hm(k)],0≤m<M;
S3.3、构建三通道的高维特征,过程法如下:
S3.3.1、对第t帧音频信号的谐波源ht(n)与冲击源pt(n)进行对数梅尔滤波器组特征提取,提取对数梅尔滤波器组特征,分别得到相应的对数梅尔滤波器组特征LFh与LFp;
S3.3.2、将LF、LFh与LFp进行堆叠,得到三通道的高维特征:
S3.4、采用混合增强方法对训练数据进行数据增强。
5.根据权利要求4所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的步骤S3.4、采用混合增强方法对训练数据进行数据增强过程如下:
构建新的训练样本数据
其中,(vi,yi)与(vj,yj)是从原训练数据中随机抽取的两个索引为i和j的样本,yi与yj是训练样本的标签,表示新训练数据,表示相应的新数据标签,表示取整运算,参数λ服从贝塔分布:
λ∈[0,1],
其中,α和β为形状参数,贝塔分布的均值为方差为取α=β,u为积分变量。
6.根据权利要求1所述的一种基于数据增强的声场景辨识方法,其特征在于,所述的S4、声场景辨识步骤如下:
S4.1、训练Xception网络分类器,网络训练的目标函数采用交叉熵损失函数:
其中,C为声场景类别的数目,为第c类声场景的标签,pc为第c类声场景的输出概率,网络的训练以最小化损失函数为目标;
S4.2、输出辨识结果,训练并调试完毕Xception网络分类器后,对测试集样本进行S2-S3步骤处理,将其高维特征输入Xception网络,得到每一类声场景的输出概率,取输出概率最大的那类声场景作为该音频样本的判决结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201430.2A CN109978034B (zh) | 2019-03-18 | 2019-03-18 | 一种基于数据增强的声场景辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910201430.2A CN109978034B (zh) | 2019-03-18 | 2019-03-18 | 一种基于数据增强的声场景辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109978034A true CN109978034A (zh) | 2019-07-05 |
CN109978034B CN109978034B (zh) | 2020-12-22 |
Family
ID=67079139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910201430.2A Active CN109978034B (zh) | 2019-03-18 | 2019-03-18 | 一种基于数据增强的声场景辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109978034B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808033A (zh) * | 2019-09-25 | 2020-02-18 | 武汉科技大学 | 一种基于双重数据增强策略的音频分类方法 |
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN111723874A (zh) * | 2020-07-02 | 2020-09-29 | 华南理工大学 | 一种基于宽度和深度神经网络的声场景分类方法 |
CN111754988A (zh) * | 2020-06-23 | 2020-10-09 | 南京工程学院 | 基于注意力机制和双路径深度残差网络的声场景分类方法 |
CN112257521A (zh) * | 2020-09-30 | 2021-01-22 | 中国人民解放军军事科学院国防科技创新研究院 | 基于数据增强和时频分离的cnn水声信号目标识别方法 |
CN112435686A (zh) * | 2020-11-19 | 2021-03-02 | 中国南方电网有限责任公司超高压输电公司 | 一种基于数据增强的电力设备故障声音识别方法 |
CN112466333A (zh) * | 2020-11-24 | 2021-03-09 | 深圳信息职业技术学院 | 一种声学场景分类方法与系统 |
CN113611288A (zh) * | 2021-08-06 | 2021-11-05 | 南京华捷艾米软件科技有限公司 | 一种音频特征提取方法、装置及系统 |
CN117095694A (zh) * | 2023-10-18 | 2023-11-21 | 中国科学技术大学 | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3913442A (en) * | 1974-05-16 | 1975-10-21 | Nippon Musical Instruments Mfg | Voicing for a computor organ |
CN1622200A (zh) * | 2003-11-26 | 2005-06-01 | 微软公司 | 多传感语音增强方法和装置 |
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
WO2015126718A1 (en) * | 2014-02-24 | 2015-08-27 | Honeywell International Inc. | Voice augmentation for industrial operator consoles |
CN104919821A (zh) * | 2012-09-27 | 2015-09-16 | 声摩逊实验室 | 用于重放音频信号的方法和系统 |
CN105355210A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 用于远场语音识别的预处理方法和装置 |
CN105376673A (zh) * | 2007-10-19 | 2016-03-02 | 创新科技有限公司 | 基于空间分析的麦克风阵列处理器 |
CN105474311A (zh) * | 2013-07-19 | 2016-04-06 | 视听公司 | 基于听觉场景分析及语音模型化的语音信号分离及合成 |
CN106053070A (zh) * | 2016-06-30 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 基于分离信号包络谱特征的轴承滚动体故障增强诊断方法 |
CN106775562A (zh) * | 2016-12-09 | 2017-05-31 | 奇酷互联网络科技(深圳)有限公司 | 音频参数处理的方法及装置 |
CN106941006A (zh) * | 2015-11-19 | 2017-07-11 | 哈曼贝克自动系统股份有限公司 | 音频信号分离成谐波和瞬态信号分量和音频信号低音增强 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN108061653A (zh) * | 2017-12-05 | 2018-05-22 | 安徽大学 | 基于谐波-冲击多普勒调制复合字典的列车轮对轴承轨边声信号分离方法 |
CN108490349A (zh) * | 2018-01-23 | 2018-09-04 | 浙江大学山东工业技术研究院 | 基于Mel频率倒谱系数的电机异音检测方法 |
CN109256146A (zh) * | 2018-10-30 | 2019-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
-
2019
- 2019-03-18 CN CN201910201430.2A patent/CN109978034B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3913442A (en) * | 1974-05-16 | 1975-10-21 | Nippon Musical Instruments Mfg | Voicing for a computor organ |
CN1622200A (zh) * | 2003-11-26 | 2005-06-01 | 微软公司 | 多传感语音增强方法和装置 |
CN105376673A (zh) * | 2007-10-19 | 2016-03-02 | 创新科技有限公司 | 基于空间分析的麦克风阵列处理器 |
CN104919821A (zh) * | 2012-09-27 | 2015-09-16 | 声摩逊实验室 | 用于重放音频信号的方法和系统 |
CN105474311A (zh) * | 2013-07-19 | 2016-04-06 | 视听公司 | 基于听觉场景分析及语音模型化的语音信号分离及合成 |
WO2015126718A1 (en) * | 2014-02-24 | 2015-08-27 | Honeywell International Inc. | Voice augmentation for industrial operator consoles |
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
CN105355210A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 用于远场语音识别的预处理方法和装置 |
CN106941006A (zh) * | 2015-11-19 | 2017-07-11 | 哈曼贝克自动系统股份有限公司 | 音频信号分离成谐波和瞬态信号分量和音频信号低音增强 |
CN106053070A (zh) * | 2016-06-30 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 基于分离信号包络谱特征的轴承滚动体故障增强诊断方法 |
CN106775562A (zh) * | 2016-12-09 | 2017-05-31 | 奇酷互联网络科技(深圳)有限公司 | 音频参数处理的方法及装置 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN108061653A (zh) * | 2017-12-05 | 2018-05-22 | 安徽大学 | 基于谐波-冲击多普勒调制复合字典的列车轮对轴承轨边声信号分离方法 |
CN108490349A (zh) * | 2018-01-23 | 2018-09-04 | 浙江大学山东工业技术研究院 | 基于Mel频率倒谱系数的电机异音检测方法 |
CN109256146A (zh) * | 2018-10-30 | 2019-01-22 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
Non-Patent Citations (7)
Title |
---|
CL´EMENT LAROCHE ET AL.: ""Hybrid Projective Nonnegative Matrix Factorization with Drum Dictionaries for Harmonic/Percussive Source Separation"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
DANIEL STOLLER ET AL.: ""Adversarial Semi-Supervised Audio Source Separation Applied to Singing Voice Extraction"", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
LU LU ET AL.: ""Shallow Convolutional Neural Networks for Acoustic Scene Classification"", 《WUHAN UNIVERSITY JOURNAL OF NATURAL SCIENCES》 * |
NAOYA TAKAHASHI ET AL.: ""Deep Convolutional Neural Networks and Data Augmentation for Acoustic Event Detection"", 《ARXIV:1604.07160V2》 * |
YANXIONG LI ET AL.: ""Anomalous Sound Detection Using Deep Audio Representation and a BLSTM Network for Audio Surveillance of Roads"", 《IEEE ACCESS》 * |
常广晖 等: ""一种循环平稳声场的声源识别定位方法"", 《海军工程大学学报》 * |
王辰 等: ""基于声像特征的场景检测"", 《计算机应用研究》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808033B (zh) * | 2019-09-25 | 2022-04-15 | 武汉科技大学 | 一种基于双重数据增强策略的音频分类方法 |
CN110808033A (zh) * | 2019-09-25 | 2020-02-18 | 武汉科技大学 | 一种基于双重数据增强策略的音频分类方法 |
CN111341341A (zh) * | 2020-02-11 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 音频分离网络的训练方法、音频分离方法、装置及介质 |
CN111754988B (zh) * | 2020-06-23 | 2022-08-16 | 南京工程学院 | 基于注意力机制和双路径深度残差网络的声场景分类方法 |
CN111754988A (zh) * | 2020-06-23 | 2020-10-09 | 南京工程学院 | 基于注意力机制和双路径深度残差网络的声场景分类方法 |
CN111723874A (zh) * | 2020-07-02 | 2020-09-29 | 华南理工大学 | 一种基于宽度和深度神经网络的声场景分类方法 |
CN111723874B (zh) * | 2020-07-02 | 2023-05-26 | 华南理工大学 | 一种基于宽度和深度神经网络的声场景分类方法 |
CN112257521A (zh) * | 2020-09-30 | 2021-01-22 | 中国人民解放军军事科学院国防科技创新研究院 | 基于数据增强和时频分离的cnn水声信号目标识别方法 |
CN112435686A (zh) * | 2020-11-19 | 2021-03-02 | 中国南方电网有限责任公司超高压输电公司 | 一种基于数据增强的电力设备故障声音识别方法 |
CN112466333A (zh) * | 2020-11-24 | 2021-03-09 | 深圳信息职业技术学院 | 一种声学场景分类方法与系统 |
CN113611288A (zh) * | 2021-08-06 | 2021-11-05 | 南京华捷艾米软件科技有限公司 | 一种音频特征提取方法、装置及系统 |
CN117095694A (zh) * | 2023-10-18 | 2023-11-21 | 中国科学技术大学 | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 |
CN117095694B (zh) * | 2023-10-18 | 2024-02-23 | 中国科学技术大学 | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109978034B (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978034A (zh) | 一种基于数据增强的声场景辨识方法 | |
CN107393542B (zh) | 一种基于双通道神经网络的鸟类物种识别方法 | |
CN111950723B (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
CN108537271A (zh) | 一种基于卷积去噪自编码机防御对抗样本攻击的方法 | |
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN101719222B (zh) | 分类器训练方法和装置以及人脸认证方法和装置 | |
CN110082821B (zh) | 一种无标签框微地震信号检测方法及装置 | |
CN105022835A (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
CN104778476B (zh) | 一种图像分类方法 | |
CN108961227B (zh) | 一种基于空域和变换域多特征融合的图像质量评价方法 | |
CN110110580B (zh) | 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法 | |
CN110718235A (zh) | 异常声音检测的方法、电子设备及存储介质 | |
CN110263215A (zh) | 一种视频情感定位方法及系统 | |
CN109784368A (zh) | 一种应用程序分类的确定方法和装置 | |
CN110610500A (zh) | 基于动态语义特征的新闻视频自适应拆条方法 | |
CN110046544A (zh) | 基于卷积神经网络的数字手势识别方法 | |
CN103955942A (zh) | 一种基于svm的2d图像的深度图提取方法 | |
CN107609564A (zh) | 基于联合分割和傅里叶描述子库的水下目标图像识别方法 | |
CN111462162A (zh) | 一种特定类别图片的前景分割算法 | |
CN112466334A (zh) | 一种音频识别方法、设备及介质 | |
CN103366175A (zh) | 基于潜在狄利克雷分配的自然图像分类方法 | |
CN108364637A (zh) | 一种音频句子边界检测方法 | |
CN110490133A (zh) | 一种基于生成对抗网络由父母照片生成子女照片的方法 | |
CN110097603A (zh) | 一种时尚图像主色调解析方法 | |
CN109472307A (zh) | 一种训练图像分类模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |